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文艺 复兴 以 降 ， 源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 
的 各 个 领域 取得 了 欧 断 性 的 优势 ; 也 正 是 这 样 的 传统 ,使 美国 在 信息 技术 发 展 的 六 十 多 年 
间 名 家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 
计算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著 
fe, 不仅 擎 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 
其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 
日 益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 
战略 上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 
机 科学 发 展 的 儿 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接 
轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 六 选 、 移 泽国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 忆 界 著名 出 版 公司 建立 
了 和 良好 的 合作 关系 ， 丛 他们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne 
Stroustrup, Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. 
Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz. William Stallings, Donald E. 
Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科 
学 丛书 ?为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 
书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 圳 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 从 书 ” 已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 。 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 ， 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 
的 图 书 有 了 质量 的 保证 。- 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐 
渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 
善 尽 美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 
对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 
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联系 电话 : (010)88379604 HZ BOOKS 
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人 工 智 能 自 20 世纪 50 年 代 诞 生起 就 受到 学 者 们 的 广泛 关注 ， 到 目前 为 止 国 内 外 很 多 
著名 高 校 都 成 立 了 专门 研究 人 工 智能 学 科 的 研究 机 构 。 人 工 智 能 的 研究 涉及 多 门 学 科 的 技 
术 ， 因 此 ， 人 工 智能 是 一 门 具有 挑战 性 的 学 科 。 伴 随 计 算 机 技术 的 发 展 和 全 球 信息 化 大 潮 
的 推动 ， 人 工 智 能 的 研究 课题 和 应 用 领域 也 在 不 断 扩展 。 

本 书 非常 详尽 、 系 统 地 阐述 了 人 工 智 能 相关 技术 ， 内 容 丰 富 、 连 贯 ， 其 中 涵盖 智能 体 
部 分 、 表 达 和 推理 部 分 、 学 习 和 规划 部 分 以 及 个 体 和 关系 的 推理 部 分 等 。 全书 共 15 章 ， 
各 章 相 对 独立 却 也 存在 一 定 的 逻辑 关系 。 该 书 在 各 章节 中 都 针对 不 同 的 概念 给 出 了 示例 或 
图 形 ， 且 难度 由 浅 入 深 , 方便 读者 更 加 透彻 地 理解 复杂 概念 或 方法 。 本 书 既 适合 人 工 智能 
的 初学 者 ， 也 适合 熟悉 人 工 智能 的 读者 ,但 是 建议 读者 对 启发 式 算法 、 命 题 与 推理 、 概 率 
以 及 算法 与 数据 结构 有 一 定 基 础 之 后 再 进行 阅读 。 

在 翻译 过 程 中 ， 我 们 发 现 该 书 有 以 下 特点 : 

1) 示例 鲜 活 ， 书 中 所 采用 的 示例 都 取材 于 实际 生产 、 生 活 。 该 方式 既 阐 明了 技术 问 
题 ， 又 说 明了 应 用 问题 。 

2) 伪 代 码 简 洁 易 懂 ， 该 书 对 算法 的 伪 代 码 描 述 省 去 不 必要 的 部 分 ， 增 加 适当 的 文字 
描述 ， 算 法 脉络 十 分 清晰 。 

3) 重点 突出 ， 该 书 特别 强调 对 知识 点 的 归纳 总 结 ， 并 对 需要 注意 的 问题 进行 提炼 ， 

本 书 是 一 本 有 关 AI 的 书籍 ， 供 计算 机 科学 或 者 相关 学 科 ( 例 如 计算 机 工程 、 电 子 工 
程 、 哲 学 、 认 知 科学 和 心理 学 ) 的 高 年 级 本 科 生 或 研究 生 使 用 。 

本 书 的 翻译 工作 由 董 红 斌 、 董 兴业 、 童 向 荣 和 汪 廷 华 共同 完成 ， 全 书 由 黄 厚 宽 审 校 。 
本 书 第 1、2、3 和 10 章 由 童 向 荣 翻 译 ， 第 4、5、6、8 和 13 章 由 董 红 斌 翻译 ,第 7、11、 
15 章 和 附录 由 汪 廷 华 翻译 ,第 9、12 和 14 章 由 董 兴 业 翻 译 。 本 书 的 翻译 工作 得 到 了 国家 
自然 科学 基金 的 资助 (No. 61472095), FEI RAWE. RHBERM. MAR. Wem. # 
一 鸣 、 候 蕉 、 崔 晓 晖 、 腾 坦 阳 和 杨 雪 等 老师 和 同学 对 本 书 翻译 过 程 的 参与 和 支持 。 

在 翻译 过 程 中 ,我们 力求 忠实 、 淮 确 地 把 握 原 著 并 保持 原著 的 风格 。 但 由 于 水 平 有 限 
和 时 间 仓 促 ， 书 中 表达 不 准确 之 处 在 所 难免 ， 在 此 县 请 各 位 专家 和 广大 读者 批评 指正 。 


译 者 
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本 书 是 一 本 关于 人 工 智 能 (AD 科学 的 图 书 。 未 书 认 为 AI 所 要 研究 的 是 如 何 设计 智能 
计算 Agent( 智 能 体 ) 。 本 书 采用 教科 书 的 组 织 形 式 ， 适 合 广大 读者 阅读 。 

过 去 几 十 年 ， 我 们 见证 了 AI 这 门 综合 学 科 的 兴起 。 正 如 其 他 学 科 一 样 ，AI 具有 清 
晰 、 规 范 的 理论 和 难 操控 的 实验 部 分 。 本 书 平衡 了 理论 和 实验 ， 并 将 两 者 密切 地 结合 。 俗 
话说 “好 的 理论 必须 有 其 实用 价值 "*， 因 此 我 们 将 工程 应 用 融入 到 AI 的 科学 研究 中 。 本 书 
所 述 方法 都 乖 承 了 格言 “凡事 都 应 尽量 从 简 ， 但 不 可 过 简 ”。 我 们 认为 科学 必须 有 其 坚实 的 
基础 ， 因 此 本 书 介绍 了 基础 梗概 , 并 且 提 供 了 构建 有 效 智能 系统 的 相关 实例 ， 这 些 实例 也 
说 明了 智能 系统 所 必需 的 复杂 事物 。 尽 管 有 可 能 生成 复杂 的 系统 ， 但 是 其 基础 和 构建 应 该 
是 简单 的 。 

本 书 可 作为 人 工 智能 的 教科 书 ， 适 用 于 计算 机 工程 、 哲 学 、 认 知 科学 以 及 心理 学 专业 
的 高 年 级 本 科 生 和 研究 生 。 本 书 倾向 于 技术 层面 的 思考 ， 其 中 包含 部 分 技术 挑战 ， 并 且 本 
书 注重 实践 学 习 : 设计 、 构 造 和 实现 系统 。 每 个 具有 科学 求知 欲 的 读者 都 会 从 本 书 的 学 习 
中 受益 。 书 中 是 根据 需要 来 提出 概念 的 ， 所 以 要 求 读者 具备 关于 计算 系统 的 过 往 经 验 ， 但 
在 我 们 构造 的 概念 上 不 需要 具备 前 期 基础 理论 的 研究 ， 诸 如 逻辑 、 概 率 、 微 积分 和 控制 
理论 . 

认真 的 学 生 可 从 本 书 的 专业 知识 中 获得 不 同 层次 的 宝贵 技能 ， 包 括 规 范 和 设计 智能 
Agent， 在 具有 挑战 性 的 应 用 领域 中 进行 软件 系统 的 实现 、 测 试 和 改进 。 不 仅 如 此 ， 学 生 
应 该 很 高 兴 能 够 参与 到 智能 Agent 这 门 学 科 的 兴起 。 能 够 操控 现实 世界 中 普遍 存在 的 、 智 
能 的 、 嵌 人 的 Agent， 这 类 实用 技能 也 是 市 场 的 巨大 需求 。 

智能 Agent 的 研究 重点 在 于 其 在 环境 中 起 到 的 作用 。 开 始 时 我 们 针对 简易 、 静 态 的 环 
境 来 研究 简单 Agent 的 行为 ， 随 后 逐渐 增加 Agent 的 能 力 来 应 对 更 具有 挑战 的 环境 。 我 们 
从 九 个 方面 来 研究 复杂 性 ， 这 样 可 以 渐进 地 、 模 块 化 地 向 读者 介绍 构建 智能 Agent 所 面临 
的 挑战 。 本 书 结构 的 安排 尽量 使 得 读者 可 以 分 别 理解 每 个 方面 ， 并 且 我 们 在 四 种 不 同 的 
Agent 任务 中 反复 论证 使 其 更 加 具体 ， 这 四 个 Agent 任务 分 别 是 : 传送 机 器 人 、 诊 断 助 
手 、 制 导 系 统 和 交易 Agent. 

学 生 可 以 把 Agent 理解 为 一 个 分 层 设计 的 Agent， 该 Agent 在 随机 环境 中 具有 智能 行 
为 ， 但 是 它 仅 能 得 到 部 分 观察 。 该 部 分 观察 是 通过 个 体 与 个 体 间 关 系 的 推理 所 得 到 ， 具 有 
复杂 的 参数 、 行 动 中 学 习 、 考 虑 环境 中 的 其 他 Agent 和 给 定 自 身 计算 限制 能 正确 处 理 的 特 
点 。 当 然 我 们 不 能 一 开始 就 设计 这 样 的 Agent， 构 建 此 类 Agent 仍然 是 一 个 研究 课题 。 所 
以 我 们 首先 介绍 最 简单 的 Agent， 进 而 说 明 如 何 用 模块 化 的 方法 将 这 些 复杂 功能 添加 
其 中 。 

我 们 给 出 了 几 个 设计 选项 ， 这 些 可 以 说 明 本 书 与 同类 图 书 的 区 别 ， 包 括 作 者 早期 扎 写 


vI 


的 书籍 : 

” 我 们 给 出 了 用 于 理解 AI 的 清晰 框架 。 本 书 不 介绍 那些 不 适合 在 一 起 研究 的 分 散 主 
题 。 例 如 ， 我 们 不 介绍 AI 中 不 相关 的 逻辑 观点 和 概率 观点 ， 但 是 却 提供 了 一 个 多 
维 设计 空间 ， 在 这 个 空间 中 学 生 可 以 得 到 一 个 整体 情况 ， 并 且 在 该 空间 内 概率 和 
i He HE BH YT PASE FE 

。 我 们 认为 最 好 将 构成 复杂 技术 的 基础 理论 清晰 地 介绍 给 读者 ， 而 不 是 直接 介绍 这 
些 复杂 技术 。 这 意味 着 本 书 所 覆盖 的 内 容 与 当前 科学 前 沿 有 着 较 大 的 差距 ， 但 同 
时 意味 着 学 生 可 以 具备 较 好 的 基础 去 理解 当前 和 未 来 的 科学 研究 。 

。 我 们 难以 决定 的 问题 之 一 是 如 何 线性 化 设计 空间 。 在 我 们 上 一 本 书 中 (Poole， 
Mackworth 和 Goebel，1998)， 较 早 就 提出 了 一 种 关系 语言 ， 并 且 根 据 该 语言 构 
建 了 基础 理论 。 但 对 于 不 具备 关联 的 工作 ， 该 方法 对 于 学 生来 说 比较 难以 理解 ， 
比如 强化 学 习 是 根据 状态 展开 而 非 关系 。 本 书 采 用 后 期 关系 化 的 方法 ， 此 方法 在 
基于 特征 表达 的 情况 下 较 好 地 反映 了 过 去 几 十 年 研究 所 取得 的 进步 。 该 方法 使 得 
学 生 可 以 理解 概率 推理 和 逮 辑 推理 的 互补 性 。 虽 然 是 采用 后 期 关系 化 的 方法 ,但 
是 该 书 结构 使 得 老师 可 以 较 早 地 说 明 各 章节 的 关系 。 

本 书 实用 的 例子 来 自 于 AIspace. org(http://www. aispace. org)， 我 们 在 设计 过 程 中 
一 直 采 用 这 些 教学 程序 。 学 生 如 果 想 更 多 地 获得 构建 智能 系统 的 经 验 ， 那 么 也 应 该 尝试 使 
用 LISP 或 Prolog 这 种 高 级 的 符号 操作 语言 进行 实验 。 我 们 同样 提供 了 本 书 许多 问题 在 
AILog(5 Prolog 相关 的 简洁 的 逻辑 编程 语言 ;上 的 实现 。 当 然 此 部 分 对 于 理解 和 使 用 本 书 
思想 不 是 最 重要 的 。 

通过 对 Agent 性 能 强度 和 表示 语言 这 两 方面 的 深入 研究 ， 本 书 方法 在 总 结 和 分 类 各 种 
Al 应 用 上 比 传统 方法 更 加 简洁 有 效 。 但 是 例如 计算 视觉 和 计算 语言 学 的 应 用 在 本 书 没有 
ER. 

本 书 没有 给 出 一 个 百科 全 书 式 的 AI 视图 ， 也 没 去 研究 每 一 个 被 提出 的 重要 思想 。 我 
们 选择 详尽 地 讲解 一 些 基本 思想 ， 在 这 些 基本 思想 上 可 以 构造 其 他 更 复杂 的 技术 ， FR AT 
明了 这 些 复 杂技 术 是 如 何在 此 基础 上 被 扩展 的 。 

图 1 展示 了 本 书 所 涉及 的 各 个 标题 。 实 线 给 出 了 前 提 条 件 。 前 提 结 构 通常 不 包含 所 有 
的 子 标题 。 为 了 撰写 书籍 ， 我 们 对 各 个 主题 进行 章节 编号 。 但 是 本 书 的 讲解 可 以 不 按照 章 
节 编 号 ， 只 要 其 满足 前 提 条 件 的 结构 。 

各 章 结尾 处 给 出 的 参考 文献 并 不 全 面 : 我 们 只 是 引用 了 我 们 直接 使 用 的 文献 ， 以 及 那 
些 我 们 认为 通过 引用 经 典 工 作 和 最 近 研 究 而 提供 了 良好 概述 的 文献 。 希 望 研 究 人 员 不 要 因 
为 自己 的 研究 工作 被 遗漏 而 不 悦 。 如 果 您 觉得 书 中 思想 有 丝 漏 ， 欢 迎 您 反馈 给 我 们 。 再 次 
重申 本 书 不 是 AI 研究 的 综述 类 图 书 。 

诚 洲 您 加 入 我 们 的 智力 探险 活动 : 构建 智能 Agent 科学 。 
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人 工 智 能 与 Agent 





人 工 智能 的 历史 充满 和 幻想、 可能、 了 验证 和 项 望 。 自 从 荷 马 描绘 机 器 “ 叫 ”" 服 侍 在 众 神 的 
餐桌 旁 ， 那 想象 中 的 机 器 佣 人 便 成 为 我 们 文化 的 一 部 分 。 然 而 ， 我们 人 工 智 能 的 研究 者 ， 
直到 50 年 前 ， 才 首次 制造 出 实验 性 机 器 来 验证 那些 假想 ， 即 有 关 具 备 思 维和 智能 行为 机 
器 人 的 假想 ， 使 得 之 前 仅 在 理论 上 具备 可 能 性 的 机 器 人 得 到 验证 。 

Bruce Buchanan [ 2005 | 





历经 几 个 世纪 的 思想 构建 ， 人 工 智能 学 科 被 公认 为 有 超过 50 年 的 历史 ， 本 书 正 是 与 
此 有 关 。 如 同 以 上 Buchanan 所 指出 的 ,我 们 现 已 验证 这 种 思想 假设 ， 并 用 于 解决 实际 问 
题 。 许 多 科学 和 工程 问题 已 经 得 到 解决 ， 但 更 多 其 他 问题 亟待 解决 。 纵 然 已 存在 人 工 智 能 
的 实际 应 用 ， 仍 有 很 多 潜在 应 用 等 待 挖掘 。 本 书 中 , 我们 将 揭示 具有 智能 行为 的 计算 
Agent 的 基本 原理 ， 这 将 有 助 于 大 家 理解 人 工 智能 现在 和 未 来 的 工作 ， 并 有 助 于 对 这 些 原 
理 做 出 进一步 的 贡献 。 


1.1 什么 是 人 工 智 能 


人 工 智 能 CAD 是 一 个 研究 能 够 产生 智能 行为 的 计算 Agent 的 综合 与 分 析 的 领域 。 下 面 
阐述 此 定义 的 每 个 部 分 。 

Agent 是 指 在 某 个 环境 中 进行 某 种 行为 的 个 体 一 一 它 完 成 了 某 件 事 。Agent 可 以 是 蠕 
虫 、 狗 、 醒 温 器 、 飞 机 、 和 机 器 人 人、 人类、 公司 、 国 家 中 的 任何 一 个 。 

我 们 感 兴趣 的 是 一 个 Agent 做 什么 ? 怎么 做 ? 我 们 通过 Agent 的 行为 来 辨别 不 同 的 
Agent。 

当 Agent 具有 以 下 行为 时 ， 我们 说 此 Agent 是 智能 的 : 

。 Agent 的 行为 能 够 与 其 环境 及 目标 相 适 应 。 

。 能 够 灵活 地 适用 于 改变 的 环境 及 目标 。 

。 能 够 从 经 验 中 学 习 。 

。 给 定 感知 和 计算 限制 时 能 够 做 出 恰当 的 选择 。Agent 通常 不 能 直接 观察 到 整个 世 

界 ， 它 只 有 有 限 的 记忆 ， 并 且 没 有 无 限时 间 进 行 某 个 行为 。 

计算 Agent 可 以 通过 一 系列 的 计算 对 其 行为 进行 决策 。 也 就 是 说 ， 决 策 可 以 分 解 成 能 够 
在 硬件 设备 上 实现 的 一 系列 原始 操作 。 这 种 计算 有 很 多 形式 ， 人 类 是 通过 一 些 软 件 完成 的 ， 
而 计算 机 则 是 由 一 些 硬件 完成 的 。 尽 管 有 一 些 Agent 可 以 认为 是 不 可 计算 的 ， 例 如 自然 现象 
中 侵蚀 景观 的 风 和 丽 。 但 是 ， 是 和 否 所 有 的 Agent 都 是 可 计算 的 ， 仍 是 一 个 开放 性 问题 。 

人 工 智 能 的 核心 科学 目标 是 理解 自然 系统 或 人 工 系统 中 一 些 智 能 行为 的 原理 ， 主 要 通 
过 以 下 几 个 部 分 来 进行 : 

。 对 自然 Agent RAT Agent 进行 分 析 。 

。 对 如 何 构造 Agent 进行 形式 化 定义 ， 并 进行 验证 。 

。 设计 、 构 建 和 实验 计算 系统 . 通过 执行 某 些 智能 性 任务 来 进行 验证 。 
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作为 科学 的 一 部 分 ， 研究 者 们 已 建立 了 一 些 实验 系统 来 验证 某 些 假设 , 或 来 探索 可 能 
性 空间 。 这 与 适用 于 某 个 实际 领域 的 那些 应 用 系统 有 很 大 不 同 。 

注意 ， 这 个 定义 不 是 关于 智能 思想 的 。 我 们 仅仅 对 如 何 智 能 地 思考 感 兴趣 ， 只 要 它 能 
带 来 更 好 的 表现 。 思 想 的 作用 是 影响 动作 。 

人 工 智能 的 核心 工程 目标 是 设计 和 合成 有 用 且 智 能 的 产品 。 我 们 通常 都 是 希望 构建 有 
智能 行为 的 Agent。 这 些 上 共有 智能 行为 的 Agent， 可 以 使 其 许多 应 用 大 放 光 彩 。 


人 工 智 能 与 自然 智能 


人 工 智能 在 本 领域 是 一 个 固定 的 名 称 ， 但 是 “人 工 智能 ”这 个 术语 同时 也 是 一 个 很 模糊 
的 概念 ， 因 为 人 工 智能 可 以 看 做 自然 智能 的 对 立 面 。 

对 于 任何 现象 ， 可 以 分 成 真 与 假 两 个 对 立 面 ， 假 就 是 不 真实 ; 也 可 以 分 成 自然 与 人 工 
两 个 方面 ， 自 然 意味 着 发 生 在 自然 界 中 的 现象 ， 人 工 则 意味 着 由 人 类 制造 的 那 部 分 现象 。 

【 例 1-1] 海啸 是 指 由 地 震 或 山崩 引起 的 海洋 中 的 巨大 波浪 。 自 然 海 啸 时 有 发 生 ， 人 人 
工 海 哺 则 是 人 为 制造 的 ， 比 如 在 海洋 中 投入 一 颗 炸 弹 爆 炸 ， 这 引发 的 仍然 是 一 场 真 实 的 海 
哺 。 假 的 海 哺 可 以 是 人 工 的 ， 比 如 计算 机 软件 绘制 而 成 的 海 哺 图 形 ; 也 可 以 是 自然 的 ， 比 
如 显示 有 海 哺 发 生 的 海 市 压 楼 现象 。 < 

对 于 智能 是 否 不 一 样 仍然 存在 争议 : 假 的 智能 是 不 存在 的 。 如 果 一 个 Agent 可 以 智能 
地 进行 某 种 行为 ， 我 们 说 它 是 智能 的 。 定 义 智 能 仅仅 是 外 部 的 行为 ， 正 在 智能 地 进行 某 个 
动作 才 是 智能 。 因 此 ， 只 有 当 智 能 被 实现 时 ， 人 工 智 能 才 是 真 的 智能 。 

图 灵 受 从 外 部 行为 定义 智能 这 个 概念 的 启发 ， 设 计 了 一 个 关于 智能 的 测试 Turing 
[1950]， 这 就 是 著名 的 图 灵 测 试 。 图 灵 测 试 是 一 种 模仿 博弈 ， 测 试 者 可 以 通过 文本 交互 界 
面向 被 测试 者 提出 在 何 问题 ， 如 果 测 试 者 不 能 分 辨 出 被 测试 者 是 不 是 人 ， 这 个 被 测试 者 就 
是 智能 的 。 图 1-1 显示 了 图 灵 测 试 中 的 一 段 对 话 。 如 果 不 能 对 任意 话题 表现 出 智能 ， 这 个 
Agent 就 不 是 真 的 智能 。 


测试 者 问 ; 在 你 的 十 四 行 诗 的 第 二 行 有 一 句 话 是 “我 能 把 你 比 作 夏天 吗 ?”， 其中“ 夏天” 换 成 “春天 ”是否 也 
可 以 或 更 好 ? 

被 测试 者 答 : 那样 不 合 韵律 ， 

测试 者 问 : 那 换 成 “冬天 " 呢 ? CHB. 

被 测试 者 答 : 可 以 ， 但 是 没有 人 起 被 比 作 冬天 。 

测试 者 问 : 你 大 概 说 过 Pickwick 先生 使 你 想起 圣诞 节 吧 ? 


被 测试 者 答 : 从 某 种 意义 上 讲 是 这 样 。 

测试 者 问 : 但 圣诞 节 是 冬季 的 一 天 呀 ， 我 认为 Pickwick 先生 不 会 介意 比 作 冬 天 。 

被 测试 者 答 : 你 也 许 是 在 开玩笑 吧 。 我 们 所 说 冬季 的 一 天 是 指 冬季 典型 的 一 天 ， 而 不 是 像 圣诞 节 那 样 特 
殊 的 一 天 。 





1-1] 图 灵 测 试 中 的 一 段 对 话 ( 来 自 TuringL1950]) 


人 们 对 图 灵 测 试 有 很 多 争议 。 可 惜 的 是 ， 图 灵 测 试 虽然 能 为 如 何 辨别 智能 提供 测试 ， 
却 不 能 为 达到 某 种 智能 提供 方法 ， 因 此 图 灵 测 试 似乎 并 不 是 一 种 有 用 的 研究 思路 。 

最 明显 的 自然 智能 Agent 是 人 类 。 有 人 说 螨虫 、 昆 虫 或 细菌 是 智能 的 ， 更 多 人 说 狗 、 
鲸 或 猴子 是 智能 的 (见习 题 1. 1)。 还 有 一 类 Agent 比 人 类 更 为 智能 ， 那 就 是 组 织 。 蚁 群 就 
是 组 织 的 一 个 典型 例子 。 单 只 蚂蚁 可 能 不 很 智能 ， 但 蚁 群 却 比 任何 一 只 蚂蚁 更 为 智能 。 静 
群 能 发 现 食物 并 有 效 地 利用 ， 而 且 能 很 好 地 适应 变化 的 环境 。 类 似 地 ， 公 司 可 以 通过 汇总 
所 有 的 必要 技能 ， 对 产品 进行 开发 、 制 造 和 分 配 ， 这 比 个 人 单打 独 斗 要 有 效 得 多 。 现代 计 
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算 机 ， 从 底层 的 硬件 到 高 层 的 软件 ， 其 复杂 程度 常人 无 法 想象 ， 但 每 天 却 被 人 类 所 操作 。 
人 类 社会 可 以 看 做 迄今 为 止 最 为 智能 的 Agent T. 

人 类 智能 从 何 而 来 是 值得 探索 的 。 主 要 源头 有 以 下 三 个 方面 : 

生物 ; 人 类 已 进化 成 为 可 以 在 各 种 环境 下 生存 的 适应 性 动物 。 

文化 : 文化 不 仅 能 够 提供 语言 ， 还 能 提供 有 用 的 工具 、 思 维 以 及 一 代 代 从 父母 和 老师 
传 到 孩子 积累 下 来 的 智慧 。 

终生 学 习 : 人 类 从 生活 中 学 习 和 积累 知识 与 技能 。 

这 些 源头 以 复杂 的 方式 进行 交互 。 生 物 进化 论 提供 了 生命 不 同 阶段 的 不 同学 习 而 实现 
的 成 长 。 人 类 与 文化 是 共同 进化 的 ， 所 以 人 类 在 刚 出 生 时 是 没有 能 力 的 ， 大 概 就 是 因为 我 
们 有 照顾 婴儿 的 文化 。 文 化 和 学 习 密 切 交 互 在 一 起 。 终 身 学 习 中 的 最 主要 部 分 是 从 父母 和 
老师 那里 学 到 知识 。 语言， 作为 文化 的 一 部 分 ,使 世界 有 所 区 别 ， 同 时 也 是 学 习 的 重要 
部 分 。 


1.2 人 工 智 能 简 史 


纵 观 人 类 历史 ， 人 们 曾 一 直 用 技术 为 人 类 自身 建立 模型 ， 例 如 古代 的 中 国 、 古 埃及 和 
古 希 腊 都 可 以 证 明 ， 每 一 种 新 技术 都 不 断 地 用 来 建造 Agent 或 其 他 意识 模型 。 发 条 装置 、 
水 力学 、 电 话 转 换 系 统 、 全 息 图 、 模 拟 计算 机 以 及 数字 计算 机 等 都 被 提出 作为 智能 装置 和 
意识 模型 的 技术 原理 。 

KA 400 年 前 ， 人 们 开始 解释 思维 与 推理 的 本 质 。Hobbes(1588 一 1679) 被 Haugeland 
[1985, P. 85] 称 为 人 工 智能 的 始祖 ， 认 为 思考 是 符号 推理 ， 例 如 大 声 说 话 或 用 纸 笔 计算 出 
某 个 答案 。JDescartes(1596 一 1650)、Paseal(1623 一 1662) 、Spinoza(1632 一 1677) Leibniz 
G1646 一 1716) 以 及 精神 帮 学 领域 的 其 他 先驱 者 对 符号 推理 这 一 理念 进行 了 更 深层 次 的 
研究 。 

随 着 计算 机 的 发 展 ， 符 号 运算 这 个 概念 变 得 更 为 具体 。 第 一 台 通 用 计算 机 是 一 个 分 析 
机 ， 它 是 由 Babbage(1792 一 1871) 设 计 的 ， 但 直到 1991 年 才 真 正 制 造 出 来 ， 现 在 位 于 伦敦 
科学 博物 馆 内 。 在 20 世纪 早期 ， 进 行 了 很 多 关于 认 知 计算 的 研究 ， 提 出 了 几 种 计算 模型 ， 
例如 Turing(1912 一 1954) 提 出 的 图 灵机 一 一 一 种 在 无 限 长 的 磁带 上 书写 符号 的 理论 机 器 ， 
Church(1903 一 1995) 提 出 的 入 演算 一 一 种 重 写 公 式 的 数学 形式 体系 ， 这 种 理论 表明 不 同 
的 数学 形式 其 实 是 等 价 的 ， 因 为 任意 一 个 可 计算 的 函数 可 以 由 其 他 函数 计算 得 到 。 由 此 ， 
我 们 得 到 Church-Turing 理论 : 

任何 有 效 可 计算 的 函数 都 可 以 通过 图 灵机 来 运行 (同样 适用 于 入 演算 或 其 他 等 价 的 形 
式 体 系 )。 

这 里 “有 效 可 计算 的 ”是 指 那些 定义 明确 的 操作 ; 图 灵机 时 代 的 “计算 机 ?是 执行 明确 定 
义 步骤 的 人 ， 而 我 们 现在 所 熟悉 的 计算 机 那 时 并 不 存在 。 此 理论 表明 所 有 的 计算 都 可 以 通 
过 图 灵机 或 其 他 与 之 等 价 的 计算 机 器 来 执行 。 我 们 虽然 无 法 证 明 Church-Turing Hie. 但 
它 确 实 是 一 种 经 得 住 时 间 检 验 的 假设 。 因 为 到 现在 都 没有 人 可 以 制作 出 一 种 机 器 ， 来 进行 
图 灵机 无 法 进行 的 计算 ， 而 且 也 没有 证 据说 明 存 在 某 种 函数 ， 人 类 可 以 计算 而 图 灵机 却 不 
能 进行 计算 。Agent 的 动作 是 一 个 关于 甚 能力、 历史、 目标 及 偏好 的 函数 。 这 也 证 明 计 算 
不 仅仅 是 一 个 智能 的 暗喻 ; 推理 是 可 以 通过 计算 机 来 执行 的 一 系列 的 计算 。 

计算 机 出 现 之 后 ， 最 早期 的 某 些 计算 机 应 用 是 人 工 智 能 程序 。 例 如 ，SamuelL1959] 在 
1952 年 开发 的 国际 跳棋 程序 ， 在 20 世纪 50 年 代 末 期 ， 人 们 可 以 通过 这 样 的 程序 来 学 习 下 
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ERBE, Newell 和 Simon[1956 | FF R HS #2 FF “32 HBL HE” AY LAE BA ee 

除了 研究 高 级 的 符号 推理 ， 还 有 一 些 工作 研究 低级 学 习 ， 这 些 研 究 从 神经 元 如 何 工 作 
受到 启发 。McCulloch 和 Pitts[1943] 说 明了 一 个 简单 的 阔 值 “形式 神经 元 ”如 何 作为 图 灵 完 
全 机 器 的 基础 (图 灵 完 全 指 在 可 计算 性 理论 中 ， 编 程 语 言 或 任意 其 他 的 逻辑 系统 具有 等 价 
于 通用 图 灵机 的 计算 能 力 。 换 言 之 ， 此 系统 可 与 通用 图 灵机 互相 模拟 。 图 灵 完 全 性 通常 指 
具有 无 限 存储 能 力 的 通用 物理 机 器 或 编程 语言 。 一 一 译 者 注 )。 最 早 提出 神经 网 络 的 人 是 
Minsky[1952]， 早 期 关于 神经 网 络 标志 性 的 研究 工作 是 Rosenblatt[1958] 的 感知 机 。 而 
1968 年 之 后 ， 神 经 网 络 的 研究 工作 面临 衰退 ， 因 为 Minsky 和 Papert[1988] 认 为 这 种 学 术 
表达 不 胜任 智能 行为 。 

早期 的 应 用 程序 主要 关注 该 领域 的 基础 方面 : 学 习 和 和 搜索。 怎么 描述 解决 问题 需要 的 
知识 是 要 解决 的 主要 难题 之 一 ， 这 个 问题 变 得 越 来 越 明 显 。 在 学 习 之 前 ，Agent 需要 有 适 
合 已 知 知识 的 目标 语言 。 有 很 多 表达 方法 ， 从 基于 特征 的 表达 到 McCarthy 和 Hayes 
[1969] 的 复杂 的 逻辑 表达 ， 还 有 很 多 介 于 两 者 之 间 的 表达 方式 ， 如 Minsky[1975] 提 出 的 
框架 表达 。 : 

20 世纪 六 七 十 年 代 ， 在 一 些 限定 领域 中 建立 的 自然 语言 理解 系统 取得 了 成 功 。 例 如 ， 
Daniel Bobrow[1967] 的 STUDENT 应 用 程序 ， 可 以 用 来 解决 用 自然 语言 表示 的 高 中 代数 
问题 。Winograd[ 1972] 的 SHRDLU 系统 ， 可 以 利用 受 限 的 自然 语言 讨论 和 解决 模拟 积木 
世界 的 任务 。CHAT-80[ Warren 和 Pereira，1982] 可 以 回答 一 些 用 自然 语言 表达 的 地 理 问 
题 。 1-2 展示 了 CHAT-80 可 以 回答 的 一 些 问题 ， 它 的 回答 是 建立 在 国家 、 河 流 等 事实 
数据 库 的 基础 上 。 这 些 系统 仅仅 是 在 有 限 的 领域 内 利用 受 限 的 词汇 和 语句 结构 来 进行 推 
HEH 





阿富汗 与 中 国 相 邻 吗 ? 

上 沃尔特 的 首都 是 有 哪里? 

哪 国 的 首都 是 伦 部 了 

最 大 的 非洲 国家 是 哪个 ? 

最 小 的 美洲 国家 有 多 大 ? 

与 非洲 国家 及 亚洲 国家 相 毗 邻 的 海洋 是 哪个 ? 

与 波罗的海 相 邻 国家 的 首都 有 了 哪些 ? 
BRM RBS OSM? 

赤道 以 南 并 且 不 属于 澳洲 2 的 那些 国家 的 总 面积 是 多 少 ? 
每 个 大 洲 上 国家 的 平均 面积 是 多 少 ? 

每 个 大 洲 都 多 于 一 个 国家 吗 ? 

流入 黑海 的 河流 发 源 于 哪些 国家 ? 

不 存在 这 样 国家 的 洲 有 哪些 ? 即 人 口 超过 100 万 的 城市 多 于 两 个 的 国家 。 
哪个 地 中 海 沿岸 的 国家 与 人 口 超过 印度 的 国家 相 邻 ? 
哪些 国家 与 大 西洋 相 邻 ， 并 自信 日 超过 1000 万 ? 








图 1-2 CHAT-80 可 以 回答 的 一 些 问题 


在 20 世纪 七 八 十 年 代 ， 关 于 专家 系统 有 大 量 的 研究 工作 ， 目 的 是 获取 某 个 领域 内 专家 
的 知识 ， 以 便于 用 计算 机 来 执行 专家 任务 。 例 如 ， 从 1965 年 到 1983 年 在 有 机 化 学 领域 开发 
的 DENDRAL 专家 系统 [Buchanan 和 Feigenbaum，1978]， 可 以 为 新 型 有 机 化 合 物 提出 理论 结 
构 。 从 1972 到 1980 年 开发 的 MYCIN 专家 系统 [Buchanan 和 Shortliffe，1984]， 可 以 进行 血液 
传染 性 疾病 的 诊断 ， 制 定 抗生素 治疗 方案 并 解释 它 的 形成 原因 。 同 期 ， 人 工 智 能 推理 得 到 了 


日 此 处 “澳洲 ” 指 " 澳 大 拉 西 亚 ”， 一般 包 括 澳大利亚 、 新 西 兰 及 附近 南 太平 洋 诸 岛 。 一 一 译 者 注 
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迅速 发 展 ， 例 如 Prolog 语言 [Colmerauer 和 Roussel, 1996; Kowalski, 1988]. 

在 20 世纪 90 年 代 和 21 世纪 初 ， 人工 智能 的 子 学 科 迅 速 发 展 ， 例 如 认 知 学 、 概 率 推 
理 、 决 策 理论 推理 、 规 划 、 般 入 式 系统 、 机 器 学 习 以 及 其 他 很 多 学 科 。 本 领域 的 基础 部 分 
获得 了 进一步 发 展 ， 这 也 正 是 本 书 的 基础 组 成 部 分 。 


与 其 他 学 科 的 关系 


人 工 智能 是 一 门 非常 年 轻 的 学 科 ， 而 像 哲 学 、 神 经 生物 学 、 进 化 生物 学 、 心 理学 、 经 
济 学 、 政 治学 、 社 会 学 、 人 类 学 、 控 制 工程 学 等 学 科研 究 智 能 已 经 很 久 了 。 

人 工 智能 学 科 可 以 描述 为 "人造 心理 学 "、 “实验 性 哲学 ?或 "计算 认识 论 "， 其 中 认识 论 
主要 研究 知识 。 人 工 智能 可 以 看 做 研究 知识 与 智能 本 质 这 个 老 问 题 的 一 种 方式 ， 但 采用 了 
比 以 前 更 有 效 的 实验 工具 。 不 同 于 哲学 、 心 理学 、 经 济 学 和 社会 学 等 只 是 传统 地 观察 智能 
系统 的 外 部 行为 ， 人 工 智 能 研究 者 们 则 对 智能 行为 的 可 执行 模型 进行 实验 验证 。 更 重要 的 
是 ， 这 些 模型 还 可 以 检查 和 重新 设计 ， 并 以 一 种 完全 和 严格 的 方式 进行 实验 。 现 代 计 算 机 可 
以 构造 模型 ， 而 哲学 家 只 能 建立 理论 。 人 工 智能 研究 者 可 以 对 这 些 模 型 进行 实验 ， 而 不 仅仅 
是 讨论 它 的 抽象 性 质 。 人 工 智能 理论 可 以 作为 其 实现 的 基础 。 此 外 ,我 们 常常 会 对 简单 的 
Agent 表现 出 复杂 的 行为 感到 非常 惊讶 ， 而 这 些 是 我 们 没有 实现 这 些 Agent 时 所 想不到 的 。 

对 比 过 去 几 个 世纪 里 飞行 器 的 发 展 与 过 去 几 十 年 里 计算 机 的 发 展 ， 是 非常 有 建设 性 意 
义 的 。 我 们 通过 几 个 方面 来 理解 飞行 ， 一 种 是 仔细 剖析 已 知 的 飞行 动物 ， 并 将 它们 的 共同 
结构 特征 假设 为 任意 飞行 Agent 的 必要 基本 特性 。 通 过 这 种 方法 ， 检 查 鸟 类 、 蝙 蝠 及 昆虫 
的 共同 特征 发 现 ， 飞 行 需要 翅膀 的 拍 动 ， 而 翅膀 上 面 需 有 羽毛 或 薄膜 。 此 外 ， 这 个 假设 可 
以 通过 实验 来 验证 ， 就 像 伊 卡 洛 斯 做 的 那样 ， 将 翅膀 捆绑 在 手 药 上 ， 拍 动 ， 然 后 跳 到 空 
中 。 另 一 个 可 行 方法 就 是 试图 理解 飞行 的 原理 ， 不 仅仅 局 限于 自然 界 中 的 飞行 。 它 涉及 髓 
入 假设 原理 的 人 工 产品 结构 ， 除 了 能 飞 之 外 ， 其 他 地 方 与 飞行 动物 根本 没有 类 似 之 处 。 通 
过 第 二 种 方法 不 仅 制造 出 了 飞机 这 样 有 用 的 工具 ， 还 产生 了 航空 动力 学 这 门 能 更 好 地 理解 
飞行 原理 的 学 科 。 

人 工 智能 采用 和 航空 动力 学 类 似 的 方法 。 人 工 智能 研究 者 们 对 验证 智能 本 质 的 一 般 假 
设 很 感 兴 趣 ， 而 制造 智能 机 器 并 不 一 定 要 模仿 人 类 或 组 织 。 通 过 考虑 "飞机 真 的 能 飞 吗 ?” 
这 样 类 似 的 问题 ， 给 我 们 提供 了 解决 “计算 机 真 的 能 思考 吗 ?” 问 题 的 一 个 思路 。 

人 工 智能 与 计算 机 科学 紧密 相连 。 尽 管 人 工 智能 领域 的 很 多 研究 者 不 是 计算 机 科学 
家 ， 但 即使 不 是 大 部 分 ， 很 多 的 人 工 智能 研究 都 需 依靠 计算 机 科学 才能 完成 。 由 于 计算 的 
研究 是 人 工 智能 的 中 心 ， 因 此 这 是 合理 的 。 理 解 算法 、 数 据 结构 及 组 合 复杂 性 对 于 构建 智 
能 机 是 非常 重要 的 。 人 工 智 能 也 为 计算 机 科学 带 来 了 很 多 衍生 利益 ， 从 分 时 系统 到 计算 机 
代数 系统 等 。 | 

最 后 ， 人 工 智能 可 以 看 做 认 知 科学 的 一 部 分 。 认 知 科学 连接 着 多 门 研究 认 知 与 推理 的 
学 科 ， 如 心理 学 、 语 言 学 、 人 类 学 和 神经 学 等 。 人 工 智能 区 别 于 认 知 科学 的 地 方 是 它 能 提 
供 工具 构造 智能 ， 而 不 仅仅 是 研究 Agent 的 外 部 行为 或 分 析 智 能 系统 的 内 部 运行 原理 。 


1.3 环境 中 的 Agent 


人 工 智能 研究 具有 实用 性 的 推理 : 为 了 完成 某 项 任务 或 达到 某 一 目的 而 进行 的 推理 。 
Agent 由 感知 、 推 理 和 行为 组 成 。Agent 在 环境 中 进行 某 种 行为 ， 这 里 的 环境 也 可 以 包括 
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其 他 的 Agent, —+ Agent 与 其 周围 的 环境 统称 为 一 个 世界 。 

例如 ， 被 称 做 机 器 人 的 Agent， 是 由 带 有 物理 传感器 的 计算 引擎 和 制动器 组 成 的 ， 其 
行为 环境 是 物理 环境 ; 再 者 ， 能 够 提供 建议 的 计算 机 专家 系统 ， 能 够 感知 信息 以 及 执行 任 
务 ; Agent 也 可 以 只 是 存在 于 纯粹 的 计算 环境 中 的 程序 ， 如 软件 Agent。 

Al 1-3 展示 了 Agent 的 输入 输出 。 任 何 时 能 力 
候 ，Agent 所 做 的 都 依赖 于 以 下 几 个 方面 : 目标 / 偏好 

1) Agent 及 其 环境 的 先 验 知识 。 

2) 与 环境 的 交互 历史 ， 其 中 包括 ; PAR 

。 当前 环境 的 观察 值 。 

。 先前 经 验 和 观察 值 ， 或 从 学 习 中 获得 > 

到 的 其 他 数据 。 先前 经 验 < 

3) 试 图 达到 的 目标 或 整个 世界 状态 的 
偏好 。 

4) 它 能 够 执行 的 最 原始 动作 ， 即 能 力 。 图 1-3 Agent 与 环境 的 交互 

两 个 具有 相同 先 验 知识 、 历 史 、 能 力 和 目标 的 Agent 才 会 产生 同样 的 行为 ， 改 变 其 中 
任何 一 个 条 件 都 将 导致 不 同 的 行为 结果 。 

每 个 Agent 都 有 一 些 内 部 状态 ， 能 为 它 的 环境 及 其 自身 进行 编码 。Agent 可 能 会 有 多 
个 要 达到 的 目标 ， 在 环境 中 为 达到 这 些 目标 而 存在 多 种 行为 方式 ， 以 及 通过 推理 、 感 知 和 
学 习 来 改变 信念 的 多 种 方法 。 纵 观 所 有 Agent， 从 恒温 控制 器 到 一 组 移动 机 器 人 ， 到 由 人 
类 提供 感知 和 行为 的 诊断 建议 系统 ， 再 到 社会 本 身 ， 其 复杂 度 各 不 相同 。 


1.4 知识 表示 


一 般 情 况 下 ， 要 解决 的 问题 或 要 完成 的 任务 ， 包 括 解 的 构成 ， 是 通过 非 形式 化 的 方式 
给 出 的 ,例如 “他 们 到 达 时 ,请 立即 递交 包裹 ”或 “请 修理 家 中 存在 故障 的 电力 系统 ”。 
计算 机 解决 问题 的 一 般 框架 在 图 1-4 中 给 而。 为 了 解决 问题 ， 系 统 设计 者 必须 : 
。 具体 化 任务 ， 并 制定 解决 方案 。 
。 用 特定 的 语言 表达 问题 ， 以 便 计 算 机 进行 推理 。 
。 用 计算 机 计算 出 相应 结果 进行 输出 ， 可 以 给 用 户 呈 现 一 个 答案 或 是 在 环境 中 需要 
执行 的 一 系列 行为 。 
。 解释 作为 问题 的 解决 方案 的 输出 结果 。 








1-4 问题 解决 中 的 表示 规则 


知识 是 可 以 用 来 解决 本 领域 问题 的 领域 信息 。 解 决 多 种 问题 需要 多 种 知识 ， 而 且 知 识 
必须 能 够 在 计算 机 中 进行 表达 。 为 了 解决 问题 ， 设 计 应 用 程序 时 ， 我 们 需要 为 如 何 表达 知 
识 来 进行 定义 。 表 示 方 案 是 Agent 中 使 用 的 知识 形式 ， 而 一 部 分 知识 的 表示 则 是 知识 的 内 
部 表达 。 表 示 方 案 指定 了 知识 的 形式 。 知 识 库 则 是 Agent 中 存储 的 所 有 知识 的 表达 。 
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一 个 好 的 表示 方案 是 很 多 竞争 性 目标 间 的 折 中 。 表 示 应 该 : 

*。 足够 丰富 ， 能 够 表达 解决 问题 所 需 的 所 有 知识 。 

。 尽 可 能 地 接近 问题 ， 并 且 简 洁 、 自 然 、 可 维 殷 。 我 们 应 该 很 容易 地 看 出 该 表达 与 
要 表达 的 领域 之 间 的 关系 ， 以 便 很 容易 地 确定 该 表达 是 否 正 确 。 问 题 的 微小 变化 ， 
也 应 导致 问题 表达 的 微小 改变 。 

。 能 够 经 得 起 有 效 计算 的 检验 ， 通常 指 能 够 有 效 地 描述 问题 特征 ， 有 利于 获得 计算 
增益 ， 并且 能 够 在 准确 度 和 计算 时 间 之 间 进 行 权衡 。 

。 能 够 从 人 类 、 数 据 或 先前 经 验 中 获得 。 

已 经 设计 出 了 不 同 的 表示 方案 ， 很 多 方案 开始 时 有 某 些 目标 ， 后 来 扩展 到 包含 其 他 目 
标 。 例 如 ， 有 些 表示 方案 设计 出 来 用 于 学 习 ， 而 后 被 扩充 用 来 解决 更 多 的 问题 ， 并 具有 了 
推理 能 力 。 有 些 表 示 方 案 设计 出 来 用 于 表达 意识 ， 而 后 又 加 上 了 推理 及 学 习 。 有 些 表示 方 
案 设 计 出 来 用 于 推理 ， 而 后 逐渐 变 得 更 为 自然 、 易 懂 。 

当 给 了 一 个 问题 或 任务 时 ， 以 下 一 些 问题 必须 要 考虑 到 。 

。 问题 的 解决 方案 是 什么 ?怎么 样 的 解决 方案 才 算 好 的 ? 

。 问题 如 何 进行 表达 ?解决 问题 时 需要 世界 中 哪些 特性 ?需要 哪些 具体 的 世界 知识 ? 
Agent 如 何 从 专家 那里 或 以 前 的 经 验 中 获得 知识 ? 这 些 知 识 如 何 被 调试 、 维 护 和 
改进 ? 

。 Agent 如 何 计 算 输 出 结果 ， 以 此 作为 问题 的 解决 方案 ? 能 不 能 把 最 坏 情 况 下 或 平 
均 情况 下 的 临界 时 间 减 到 最 小 ?理解 答案 是 怎样 推导 出 来 的 对 于 一 个 人 来 说 很 重 
要 吗 ? 

这 些 问 题 会 在 下 一 部 分 讨论 ， 本 书 的 表示 方案 部 分 也 会 涉及 这 些 问 题 。 


1.4.1 定义 解 


给 定 问 题 的 一 个 非 形式 化 描述 ， 在 考虑 使 用 计算 机 之 前 ， 知 识 库 设 计 者 应 该 确定 问题 
解 的 构成 。 不 仅 是 人 工 智能 领域 ,任何 涉及 软件 设计 的 地 方 都 会 存在 这 个 问题 。 很 多 软件 
工程 都 涉及 问题 描述 的 提炼 。 
通常 ， 并 不 是 所 有 问题 都 能 很 好 地 说 明 ， 不仅 是 有 些 地 方 没有 进行 说 明 ， 而 且 没 有 说 
明 的 地 方 也 不 能 被 随意 填充 。 举 例 来 说 ， 当 你 让 交易 Agent 搜索 出 那些 有 健康 隐患 的 度假 
村 时 ， 你 并 不 希望 它 返回 所 有 的 度假 村 信息 ， 尽 管 符合 你 要 求 的 度假 村 也 包含 在 里 面 。 然 
而 ， 如 果 Agent 根本 就 没有 度假 村 的 完全 知识 ,那么 返回 所 有 的 信息 可 能 是 保证 符合 要 求 
的 唯一 方法 。 同 样 ， 当 要 求 将 垃圾 传送 到 垃圾 桶 时 ,传送 机 器 人 却 把 所 有 的 物品 都 传送 到 
了 垃圾 桶 里 ， 尽 管 保证 了 所 有 垃圾 都 能 被 带 走 ， 但 这 样 一 个 传送 机 器 人 你 不 会 想 要 。 人 工 
智能 的 很 多 成 果 来 自 于 常识 推理 ; 我 们 希望 计算 机 能 够 对 未 阐明 的 假设 做 出 常识 性 的 
推论 。 
给 定 一 个 定义 明确 的 问题 ， 下 一 步 就 是 判断 如 果 答 案 不 正确 或 不 完全 ， 对 问题 的 解决 
有 没有 影响 。 例 如 ， 如 果 说 明 书 要 求 所 有 的 实 倒 ， 那 么 缺少 几 个 实例 可 以 吗 ? 如 果 增 加 另 
外 的 实例 可 以 吗 ? 通常 人 们 想 要 的 是 符合 某 些 标准 的 最 优 解决 方案 ， 而 不 仅仅 是 任意 方 
案 。 一 般 分 为 以 下 4 类 解决 方案 : 
。 最 优 解 .问题 的 最 优 解 是 指 在 所 有 的 可 能 解 中 最 符合 求解 质量 度量 的 最 好 的 解 。 
这 个 度量 用 序数 来 描述 。 但 是 在 一 些 情况 下 ， 例 如 综合 多 种 标准 或 不 确定 推理 时 ， 
我 们 需要 一 种 要 考虑 相对 大 小 的 基数 度量 。 序 数 度量 的 一 个 例子 是 让 机 器 人 带 出 
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尽 可 能 多 的 垃圾 ， 越 多 越 好 。 作 为 基数 度量 的 例子 ， 你 可 以 让 传送 机 器 人 在 最 小 
化 传送 距离 的 同时 ， 将 尽 可 能 多 的 垃圾 带 到 垃圾 桶 ， 明 确 规定 它们 之 间 要 进行 权 
衡 。 为 了 节省 时 间 ， 丢 掉 一 些 垃圾 可 能 会 更 好 。 一般 基数 度量 的 期 望 值 ， 即 效用 
函数 主要 应 用 于 决策 论 中 。 
。 可 满足 解 。Agent 经 常 并 不 需要 最 优 解 ， 只 需 一 些 满足 条 件 的 解 就 可 以 。 可 满足 
解 是 指 那 些 满足 充分 条 件 的 解 。 例 如 ， 人 们 可 以 命令 机 器 人 带 出 所 有 的 垃圾 ， 也 
可 以 命令 它 只 带 出 三 件 垃圾 。 
© 近似 最 优 解 。 好 的 基数 度量 的 一 个 优点 是 它 允 许 使 用 近似 值 。 近 似 最 优 解 是 指 其 
质量 度量 接近 理论 上 存在 的 最 优 解 。 一 般 Agent 不 需要 问题 的 最 优 解 ， 只 要 那些 
解 接 近 最 优 就 可 以 。 例 如 ， 机 器 人 为 了 送出 垃圾 可 能 并 不 需要 达到 最 优 的 传输 距 
离 ， 可 能 只 需要 在 最 优 距 离 10% 范 围 以 内 就 可 以 。 
对 于 一 些 问题 ， 获 得 近似 最 优 解 比 获 得 最 优 解 更 容易 ， 但 对 于 另外 一 些 间 题 ， 获 得 近 
似 最 优 解 和 获得 最 优 解 一 样 难 。 一 些 近 似 算法 能 够 得 到 在 最 优 解 的 一 定 范 围 内 的 解 ， 而 有 
的 则 根本 找 不 到 。 
。 可 能 解 。 可 能 解 是 指 一 个 解 ， 尽 管 它 可 能 不 是 问题 的 真正 解 ， 但 也 是 一 个 有 希望 
的 解 。 这 是 一 种 用 精确 的 方式 来 对 可 满足 解 进行 近似 的 方法 。 例 如 ， 在 传送 机 器 
人 可 能 会 丢 垃 圾 或 者 无 法 捡 起 来 的 状况 下 ， 可 以 设置 成 机 器 人 有 80% 的 可 能 性 失 
起 三 件 垃 圾 。 我 们 一 般 期 望 去 区 分 错 肯 定 误差 率 ( 计 算 机 给 出 的 不 正确 管 案 的 比 
率 ) 和 错 否 定 误差 率 ( 计 算 机 没有 给 出 的 正确 管 案 的 比率 )。 有 些 应 用 程序 可 能 会 容 
忍 这 些 误差 中 的 一 个 远 超过 男 一 个 。 
这 里 的 分 类 并 不 是 互相 排斥 的 。 有 一 种 称 为 可 能 近似 正确 (PAC) 的 学 习 形 式 ， 认 为 可 
能 学 习 到 一 种 近似 正确 的 概念 。 


1.4.2 表示 


如 果 你 对 解 的 本 质 有 要 求 ， 你 就 需要 表示 问题 ， 以 便于 计算 机 来 解决 它 。 

计算 机 和 人 类 思维 都 属于 物理 符号 系统 。 符 号 是 一 种 可 以 被 操作 的 有 意义 的 图 案 。 例 
如 ， 字 、 句 、 手 势 、 文 章 里 的 标记 与 二 进 制 序列 都 是 符号 。 符 号 系统 对 符号 进行 创造 、 复 
制 、 修 改 和 撤销 。 本 质 上 来 说 ， 符 号 是 符号 系统 中 被 操作 的 基本 单元 。 
这 里 用 到 物理 这 个 术语 ， 是 因为 物理 符号 系统 中 的 符号 是 部 分 现实 世界 中 的 物理 对 
尽管 它们 可 能 存在 于 计算 机 和 大 脑 内 部 。 它 们 需要 物理 地 影响 行为 或 运动 控制 。 
很 多 人 工 智能 技术 依赖 于 Newell 和 Simon[1976] 提 出 的 物理 符号 系统 假设 ; 
物理 符号 系统 具有 必要 且 充 分 的 机 制 以 进行 一 般 的 智能 活动 。 
这 是 一 个 强 有 力 的 假设 ， 它 的 意思 是 任意 Agent 必定 是 一 个 物理 符号 系统 ， 而 且 物 理 符 
号 系统 包括 智能 行为 所 需 的 一 切 ， 没 有 不 可 思议 的 量子 论 现象 。 世 界 中 的 物理 符号 系统 也 需 
要 一 个 用 来 进行 感知 和 行为 的 主体 。 物理 符号 系统 假设 是 经 验 性 的 假设 ， 像 其 他 科学 假设 一 
样 ， 它 也 需要 证 据 来 论证 ， 或 者 有 其 他 可 蔡 代 的 假设 存在 。 实 际 上 ， 它 也 可 能 是 错误 的 。 

Agent 可 以 看 做 通过 操作 符号 来 产生 动作 。 其 中 许多 符号 用 来 表示 世界 中 的 事物 ; 一 
些 符号 则 用 来 表示 有 用 的 概念 ， 这 些 概念 可 能 具有 扩展 含义 ， 也 可 能 不 具有 护 展 含义 ; 为 
外 还 有 一 些 符 号 表示 Agent 的 内 部 状态 。 

Agent 可 以 用 物理 符号 系统 对 世界 进行 建 模 。 世 界 模型 是 世界 中 真实 存在 的 详情 和 世 
界 的 动态 行为 的 表达 。 世 界 并 没有 什么 特定 的 标准 。 所 有 的 模型 都 是 抽象 出 来 的 ， 它 们 表 
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达 的 仅仅 是 世界 的 一 部 分 ， 遗 留 了 很 多 其 他 细节 。Agent 可 以 有 一 个 非常 简单 的 世界 模 
型 ， 也 可 以 有 一 个 非常 详细 的 世界 模型 。 抽 象 的 层次 是 指 按 抽象 程度 排列 的 一 个 偏 序 。 低 
层 抽 象 比 高 层 抽象 拥有 更 多 的 细节 。Agent 可 以 拥有 多 重 的 ， 甚至 是 对 立 的 世界 模型 。 模 


， 型 ,不 是 看 它 是 否 正确 ， 而 是 看 它 是 否 有 用 。 


【 例 1-2] 传送 机 器 人 可 以 对 环境 进行 高 层 抽象 建 模 ， 包括 房 间 、 走 廊 、 门 和 障碍 物 ， 
忽略 距离 、 机 器 人 的 大 小 、 需 要 的 操纵 角度 、 车 轮 的 移动 、 包 右 的 重量 、 障 得 物 的 详细 情 
况 、 加 拿 大 的 政治 形势 以 及 其 他 事物 。 机 器 人 也 可 以 通过 将 一 些 细 节 加 入 模型 中 对 环境 进 
行 低 层次 抽象 建 模 。 这 些 细节 中 的 一 些 与 机 器 人 完成 任务 无 关 ， 而 一 些 则 是 机 器 人 成 功 的 
关键 。 例 如 ， 在 某 些 情况 下 ， 为 了 使 机 器 人 不 在 一 些 特定 的 描 角 处 被 卡 住 机 器 人 的 大 小 
和 操纵 角度 是 关键 。 而 在 其 他 情况 下 ， 如 果 机 器 人 接近 走廊 的 中 心 位 置 ， 那 么 就 不 需要 对 
它们 的 宽度 或 操纵 角度 进行 建 模 。 < 
选择 一 个 合适 的 抽象 层次 比较 难 ， 因 为 
。 对 于 人 类 来 说 ， 高 层次 的 描述 更 容易 说 明和 理解 。 
。 低层 次 的 描述 更 准确 ， 更 有 预测 性 。 通 常 高 层次 抽象 忽略 的 细节 可 能 正 是 解决 问 
题 的 关键 之 处 。 

。 层次 越 低 ， 越 难 进行 推理 。 因 为 低层 次 模型 的 解 涉及 更 多 的 步骤 和 更 多 可 供 选 择 
的 行动 路 线 。 

。 你 可 能 根本 不 知道 低层 次 建 模 所 需要 的 信息 。 例 如 ， 传 送 机 器 人 可 能 不 知道 自己 
会 遇 到 什么 样 的 障碍 物 或 地 板 有 多 滑 ， 并 在 遇 到 这 些 情况 时 应 该 做 些 什 么 。 

对 环境 进行 多 层次 抽象 建 模 可 能 会 更 好 些 。 这 个 问题 会 在 2. 3 节 进 行 讨论 。 

我 们 可 以 对 生物 系统 和 计算 机 进行 多 层次 抽象 描述 。 逐 层 降 低 的 层次 是 神经 层次 、 生 
物化 学 层次 (什么 样 的 化 学 药品 和 电势 可 以 传送 ) 、 化 学 层次 (会 进行 什么 样 的 化 学 反应 六 
物理 层次 (原子 力 和 量子 论 现象 ) 。 在 神经 层次 之 上 需要 什么 层次 来 计算 智能 仍 是 一 个 开放 
性 难题 。 注 意 ， 这 些 层 次 描述 在 科学 本 来 的 分 层 结 构 中 得 到 共鸣 ， 科 学 家 被 划分 为 物理 学 
家 、 化 学 家 、 生 物 学 家 、 心 理学 家 、 人 类 学 家 等 。 尽 管 我 们 不 知道 哪个 层次 的 描述 更 重 
要 ， 但 我 们 猜想 建立 一 个 Agent 不 必 模 仿 人 类 的 每 一 层 ， 可 以 在 现代 计算 机 的 基础 上 进行 
高 层次 建 模 。 这 个 猜想 是 人 工 智能 研究 的 一 部 分 。 

对 生物 实体 和 计算 性 实体 来 说 ， 以 下 两 个 层次 看 起 来 是 共有 的 : 

。 知识 层 是 将 Agent 所 知道 的 、 所 相信 的 以 及 它 的 目标 抽象 出 来 。 知 识 层 考虑 的 是 

Agent 知道 什么 ， 而 不 是 它 如 何 进行 推理 。 例 如 ， 传 送 Agent 的 行为 可 以 用 它 是 
否 知 道 包 训 有 没有 到 达 和 是 否 知道 特定 的 人 在 哪里 来 描述 。 人 类 和 自动 Agent 都 
可 以 在 知识 层次 上 进行 描述 。 在 这 个 层次 上 ， 不 需要 说 明 如 何 计 算 解 和 Agent 可 
能 会 用 到 哪些 策略 。 

。 符号 层 是 对 Agent 的 推理 进行 描述 。 为 了 实现 知识 层 ，Agent 需要 通过 操作 符号 
来 产生 答案 。 我 们 设计 了 很 多 认 知 科学 方面 的 实验 来 判定 推理 时 会 产生 什么 样 的 
符号 操作 。 注 意 ， 知 识 层 说 明 的 是 对 于 外 部 世界 ，Agent 相信 什么 ， 它 的 目标 是 
什么 ; 而 符号 层 是 对 Agent 内 部 关于 外 部 世界 推理 的 描述 。 


1.4.3 推理 与 行为 


符号 的 操作 产生 行为 被 称 为 推理 。 
人 工 智 能 表达 不 同 于 用 传统 语言 编写 的 计算 机 程序 的 一 个 重要 方面 是 ， 人 工 智 能 表达 
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的 主要 是 需要 计算 什么 ， 而 不 是 怎样 进行 计算 。 我 们 可 能 明确 指出 Agent 应 该 找 出 病人 最 
可 能 得 的 疾病 ， 或 指出 机 器 人 应 该 拿 杯 咖啡 ， 而 不 是 给 出 做 这 些 事情 的 具体 指令 。 很 多 人 
工 智能 推理 涉及 通过 可 能 空间 的 搜索 来 决定 怎样 完成 任务 。 

在 决定 Agent 要 做 什么 时 ， 有 三 个 方面 的 计算 必须 区 别 开 来 : 1) 要 设计 Agent 时 的 计 
和 需要 行动 之 前 ，Agent 能 做 的 计算 ; 3) 当 Agent 执行 某 些 动 作 时 所 做 
的 计算 。 

。 TOARE EEI ACERA E Agent 的 投 计 者 而 不 是 Agent 

本 身 来 完成 。 

。 离线 计算 是 在 动作 之 前 由 Agent 完成 的 计算 ， 它 包括 汇编 和 学 习 。Agent 离线 获 
取 背 景 知 识 和 数据 ， 并 将 其 汇编 成 可 用 的 形式 ， 称 之 为 知识 库 。 背 景 知 识 可 以 在 
设计 时 或 离线 状态 时 给 出 。 

。 在 线 计算 是 在 观察 环境 及 在 环境 中 进行 某 些 行为 时 由 Agent 完成 的 计算 。 在 线 状 
态 获 取 的 信息 称 为 观察 。Agent 必须 使 用 知识 库 和 观察 来 决定 要 做 什么 。 

区 别 设 计 者 思维 中 的 知识 和 Agent 思维 中 的 知识 是 重要 的 。 考 虑 以 下 极端 情况 : 

。 一 种 极端 情况 是 ， 高 度 专业 化 的 Agent 在 为 其 设计 的 环境 中 能 够 运行 良好 ， 但 离 
开 这 个 合适 位 置 却 变 得 无 能 为 力 。 设 计 者 可 能 为 构造 Agent 做 了 大 量 工 作 ， 而 
Agent 本 身 不 用 做 很 多 就 可 以 运行 良好 。 举 个 自动 调 温 器 的 例子 ， 设 计 一 个 自动 调 
温 器 是 困难 的 ， 因 为 它 必须 在 正确 的 远 度 下 准确 打开 或 关闭 ， 但 是 自动 调 温 器 本 
身 并 不 需要 做 很 多 计算 。 再 比如 ， 绘 图 机 器 人 每 天 在 汽车 厂 绘 制 相同 零件 的 例子 。 
为 了 完美 地 完成 绘制 任务 ， 可 能 需要 很 多 设计 时 间或 离线 计算 ， 但 绘图 机 器 人 几 
乎 不 需要 在 线 计算 就 能 完成 绘图 任务 ; 它 能 感知 到 有 一 个 零件 在 特定 的 位 置 ， 然 
后 进行 其 预先 定义 好 的 动作 。 这 些 专业 Agent 不 适用 于 不 同 的 环境 或 变化 的 目标 。 
如 果 一 个 不 同 的 零件 放 在 特定 的 位 置 ， 绘 图 机 器 人 不 会 注意 到 ， 即 使 注意 到 了 也 
不 知道 要 做 些 什 么 ， 必 须 通过 重新 设计 或 重新 编程 来 绘制 不 同 的 零件 ， 或 者 将 其 
改变 成 为 磨 光 机 或 跟踪 洗涤 机 。 

。 另 一 种 极端 情况 是 非常 柔性 的 Agent， 可 以 在 任意 环境 下 生存 ， 可 以 在 运行 时 接 
受 新 任务 。 简 单 的 生物 Agent， 如 昆虫 ， 能 适应 复杂 变化 的 环境 ， 但 是 它们 不 能 
执行 任意 任务 。 设 计 一 个 可 以 适应 复杂 环境 和 变化 目标 的 Agent 是 一 个 主要 挑战 。 
Agent 能 够 比 设计 者 知道 更 多 的 环境 细节 。 就 算是 在 生物 学 方面 也 没有 制造 出 这 
样 的 Agent。 人 类 可 能 是 唯一 现存 的 实例 ， 但 即使 是 人 类 也 需要 时 间 来 适应 新 
环境 。 

虽然 柔性 Agent 是 我 们 的 终极 梦想 ， 但 研究 者 们 也 不 得 不 通过 更 多 的 平凡 目标 来 达到 
这 个 目标 。 研 究 者 们 已 经 制造 了 很 多 适应 于 特定 环境 下 的 特定 Agent， 而 不 是 制造 那 种 能 
够 适应 任何 环境 完成 任何 任务 的 通用 型 Agent。 设 计 者 能 够 对 特定 环境 结构 进行 开发 ， 而 
Agent 不 必 对 其 他 的 可 能 性 进行 推理 。 

构造 Agent 的 两 大 一 般 策略 如 下 : 

。 第 一 个 策略 是 简化 环境 并 为 这 些 环境 建立 复杂 的 推理 系统 . Plo. 工厂 机 器 人 可 
以 在 工厂 这 个 工程 环境 里 完成 各 种 复杂 的 任务 ， 但 它们 在 自然 环境 中 可 能 是 没 用 
的 。 很 多 问题 的 复杂 性 可 以 通过 简化 环境 来 降低 。 建 立 实 用 性 的 系统 也 是 非常 重 
要 的 ， 因 为 许多 环境 可 以 为 Agent 设计 得 更 简单 些 。 

。 第 二 个 策略 是 在 自然 环境 中 建立 简单 的 Agent。 这 种 策略 是 受到 尾 虫 的 启发 ， 屁 
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虫 虽然 只 有 有 限 的 推理 能 力 却 能 在 复杂 环境 中 生存 。 随 着 它们 的 任务 越 来 越 复杂 ， 
Agent 可 以 被 设计 为 拥有 更 多 的 推理 能 力 。 
简化 环境 的 一 个 优点 是 我 们 能 用 它 证 明 Agent 的 性 质 或 在 特定 状态 对 Agent 进行 优 
化 。 证 明 Agent 的 性 质 或 优化 主要 需要 一 个 Agent 及 其 环境 的 模型 。Agent 可 能 会 做 一 点 
或 很 多 推理 ,但 Agent 的 观察 者 或 设计 者 能 够 对 Agent 及 其 环境 做 出 推理 。 例 如 ， 设计 者 
能 够 证 明 Agent 是 否 能 够 达到 目标 ， 是 否 能 够 避免 陷入 不 利 的 状况 中 (安全 目标 )， 会 不 会 
在 某 个 地 方 卡 住 (活跃 性 ), 会 不 会 最 终 开 始 它 应 该 做 的 事情 (公平 )。 当 然 , 证 明 实际 上 等 
价 于 其 模型 。 
为 复杂 环境 构造 Agent 的 优点 是 人 类 的 生活 环境 和 我 们 想 要 Agent 活动 的 环境 是 多 种 
多 样 的 。 
幸运 的 是 ， 这 些 方面 的 研究 都 一 直 在 进行 。 在 第 一 种 情况 下 ， 研 究 者 们 从 简单 的 环境 
人 手 ， 逐 步 使 环境 变 得 更 加 复杂 。 在 第 二 种 情况 下 ， 研 究 者 们 增加 Agent 行为 的 复杂 性 。 


1.5 复杂 性 维度 


从 自动 调 温 器 到 在 竞争 性 环境 中 有 多 种 目标 的 企业 ，Agent 在 环境 中 行为 的 复杂 性 各 
不 相同 。Agent 的 设计 存在 多 个 维度 的 复杂 性 。 这些 维度 可 以 分 开 来 考虑 ， 但 建造 智能 
Agent 时 必须 组 合 起 来 。 这 些 维度 定义 了 人 工 智能 的 一 个 设计 空间 ， 空 间 里 的 不 同 点 可 以 
通过 改变 维度 值 来 得 到 。 

这 里 我 们 介绍 9 个 维度 : 模块 性 、 表 示 方 案 、 规 划 期 、 感 知 不 确定 性 、 效 用 不 确定 
性 、 偏 好 、Agent 数量 、 学 习 和 计算 限制 。 这 些 维度 对 智能 系统 的 设计 空间 做 了 粗糙 的 划 
分 。 有 时 为 了 建立 智能 系统 必须 做 出 很 多 其 他 的 选择 。 


1.5.1 模块 性 


第 一 维 是 模块 性 的 层次 。 

模块 性 是 系统 可 以 分 解 成 能 被 独立 理解 的 交互 模块 的 程度 。 

模块 性 对 降低 复杂 性 是 重要 的 。 它 在 脑 部 结构 中 很 明显 ， 是 计算 机 科学 的 基础 ， 也 是 
任何 大 型 组 织 的 重要 部 分 。 

模块 性 主要 通过 层次 结构 分 解体 现 。 例 如 ， 人 的 视觉 皮层 与 眼睛 组 成 了 一 个 模块 ， 可 
以 采光 ， 还 可 以 达到 更 高 层 的 目标 ， 输 出 一 些 简化 的 情景 描述 。 如 果 模 块 再 分 成 更 小 的 模 
块 ， 并 以 此 类 推 ， 还 可 以 分 成 更 小 的 模块 ， 直 至 分 成 最 原始 的 操作 ， 我 们 说 模块 性 是 分 层 
的 。 这 种 分 层 组 织 正 是 生物 学 家 研究 的 一 部 分 。 大 型 组 织 都 有 一 个 分 层 结构 ， 这 样 高 层 决 
策 者 才 不 会 被 细节 压倒 ， 也 不 必 过 问 所 有 的 组 织 细节 。 计 算 机 科学 中 的 抽象 编程 和 面向 对 
象 编程 ， 就 是 利用 模块 性 与 抽象 性 ， 使 系统 更 为 简化 。 

在 模块 性 维度 中 ，Agent 的 结构 是 下 列 一 种 : 

。 扁平 的 : 系统 中 没有 组 织 结 构 ; - 

。 模块 化 的 ， 系统 可 被 分 解 成 独立 的 可 理解 的 交互 模块 ; 

。 分 层 的 : 系统 是 模块 化 的 ， 模 块 本 身分 解 成 了 交互 模块 ， 它 们 中 的 每 一 个 又 都 是 

一 个 分 层 系统 ， 由 此 循环 下 去 ， 直到 分 解 成 最 简单 的 组 件 。 

在 扁平 结构 或 模块 化 的 结构 中 ，Agent 主要 进行 单 层 抽象 上 的 推 再， 而 在 分 层 结构 

H, Agent 主要 是 在 多 层 抽象 上 进行 推理 。 低 层 结 构 主 要 涉及 低层 抽象 的 推理 。 
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【 例 1-3] 一 个 Agent， 比 如 你 自己 ， 从 家 中 到 海外 的 度假 目的 地 去 旅行 ， 必 须 从 家 
里 到 机 场 ， 然 后 飞 到 目的 地 附近 的 机 场 ， 再 从 飞机 场 到 达 目 的 地 。 它 还 可 以 将 实际 的 移动 
分 解 成 一 系列 的 腿 部 运动 或 车 轮 滚 动 。 在 扁平 结构 表达 中 ，Agent 会 选择 某 一 层 抽象 表达 
并 在 该 层 进行 推理 。 模 块 化 表达 将 任务 分 解 成 很 多 可 以 独立 解决 的 子 任务 (例如 ， 订 票 ， 
到 达 出 发 地 机 场 ， 到 达 目 的 地 机 场 ， 到 达 度 假 的 地 点 )。 在 分 屋 结构 表达 中 ，Agent 将 用 
分 层 的 方式 解决 这 些 子 任务 ， 直 至 将 问题 分 解 成 一 些 简 单 的 问题 ， 例如 传送 http 请 求 或 
采取 一 种 特定 的 步 又 。 | 

对 于 降低 构建 能 在 复杂 环境 中 动作 的 Agent 的 复杂 性 ， 层 次 分 解 是 重要 的 。 然 而 ， 为 
了 考察 其 他 维度 ， 我 们 首先 忽略 分 层 结构 ， 而 假设 它 是 一 个 扁平 结构 。 忽 略 层次 分 解 这 种 
做 法 通常 适用 于 中 小 型 问题 求解 ， 它 适用 于 低 等 动物 、 小 型 组 织 或 中 小 型 的 计算 机 程序 。 
当 问 题 或 系统 较为 复杂 时 ， 就 需要 一 些 分 层 结 构 了 。 

如 何 建 立 具有 分 层 结 构 的 Agent 将 在 2. 3 节 进 行 讨论 。 


1.5.2 表示 方案 


表示 方案 维度 主要 讨论 如 何 描述 世界 。 状 态 是 指 世界 中 影响 Agent 行为 的 各 种 方法 。 
我 们 可 以 将 世界 的 状态 分 解 成 Agent 的 内 部 状态 ( 它 的 信念 状态 ) 和 环境 状态 两 个 部 分 。 

在 最 简单 层次 上 ，Agent 可 以 以 一 系列 独立 的 确定 状态 来 进行 推理 。 

【 例 1-4] 加 热 器 的 自动 恒温 器 一 般 有 两 个 信念 状态 : 关闭 和 加 热 。 环 境 有 三 个 状态 : 
冷 、 和 舒适 和 热 。 信 和 念 状态 与 环境 状态 的 不 同 组 合 ， 可 以 组 成 相对 应 的 六 种 状态 。 这 些 状 态 
可 能 无 法 完全 形容 世界 ， 但 它们 足以 来 描述 自动 恒温 器 的 所 有 行为 了 。 如 果 环 境 处 于 冷 状 
态 ， 自 动 恒温 器 应 该 调 到 或 停留 在 加 热 状 态 ; 如 果 环 境 处 于 热 的 状态 ， 自 动 恒 温 器 应 该 调 
到 或 停留 在 关闭 状态 ， 如 果 环 境 处 于 舒适 状态 ， 自 动 恒 温 器 停留 在 现在 所 在 的 状态 下 即 
AT, Agent 在 加 热 状态 可 以 加 热 ， 而 在 关闭 状态 则 不 能 加 热 。 < 

用 状态 特征 或 状态 真 假 的 命题 进行 推理 ， 要 比 列举 一 系列 状态 进行 推理 更 容易 些 。 状 
态 可 以 用 一 系列 的 特征 来 描述 ， 其 中 每 个 特征 在 每 个 状态 中 都 有 一 个 值 ( 见 4.1 节 )。 

【 例 1-5】 用 来 看 护 房屋 的 Agent 可 能 必须 对 灯泡 是 否 被 破坏 进行 推理 。 它 可 能 有 每 
个 开关 的 位 置 、 状 态 ( 是 否 工作 良好 ， 是 否 短路 ， 是 否 被 破坏 ) 和 每 个 灯泡 是 否 能 够 正常 工 
作 的 特征 。 特 征 pos_s2 有 这 样 的 特点 : 当 开关 s2 调 上 去 时 ，pos_s2 的 特征 值 为 up: 当 开 
关 调 下 来 时 ，pos_s2 特征 值 为 dowwn。 房 间 里 照明 设备 的 状态 可 以 用 这 一 系列 的 特征 值 来 
描述 。 < 

布尔 型 命题 的 值 只 有 页 、 假 两 种 情况 。30 个 命题 经 过 编码 可 以 有 2° = 1 073 741 824 
种 状态 。 用 这 30 个 命题 来 阐述 和 推理 可 能 比 使 用 100 多 万 个 状态 更 容易 些 。 另 外 ， 用 状 
态 的 紧凑 表示 法 会 更 容易 理解 些 ， 因 为 它 意 味 着 Agent 已 经 掌握 了 本 领域 内 的 一 些 规 律 。 

【 例 1-6】 考虑 一 个 能 够 识别 字母 表 里 字母 的 Agent， 假 设 这 个 Agent 在 观察 一 个 
30X30 像素 的 二 值 图 像 ， 这 900 个 网 格 点 中 的 每 一 个 或 开启 或 关闭 (也 就 是 , 没有 使 用 任 
何 色彩 或 灰 度 信息 ) 。 这 个 行为 将 决定 图 像 中 绘 册 的 是 字母 fa，…，z} 中 的 哪 一 个 。 这 个 
图 像 有 2* 种 不 同 的 状态 ， 从 图 像 状 态 到 {a，…，<} 这 26 个 字母 的 映射 函数 会 有 26”” 种。 
我 们 甚至 无 法 用 状态 空间 来 表达 这 些 函 数 。 因 此 ， 我 们 定义 了 图 像 的 特征 ， 例 如 线段 ， 并 
用 这 一 系列 的 特征 定义 了 从 图 像 到 字母 的 映射 函数 。 本 

当 描述 复杂 世界 时 ， 特 征 可 以 依赖 于 关系 与 个 体 。 单 个 个 体 上 的 关系 是 一 种 属性 ， 个 
体 之 间 的 每 一 种 可 能 关系 上 都 存在 特征 。 
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【 例 1-7) 在 例 1-5 中 看 护 房 屋 的 Agent 可 以 将 灯泡 与 开关 看 做 个 体 ， 并 有 它们 之 间 


的 位 置 关 系 position 与 有 向 连接 关系 connected_to。 用 位 置 关系 position(s,, up) KRHA 


position_si =up 这 个 特征 。 当 Agent 遇 到 开关 并 且 具 有 此 开关 的 先 验 知识 时 ，Agent 就 能 
根据 关系 对 这 些 开 关 进 行 推 理 。 本 

【 例 1-8] 假设 Agent 是 一 个 学 生 课 程 登记 系统 ， 用 特征 grade 来 描述 一 个 学 生 所 选 
的 一 门 课程 的 成 绩 。 对 于 每 一 组 学 生 - 课 程 对 (student，course)， 存 在 特征 passed, FFE 
passed 依赖 于 特征 grade 。 用 学 生 个 体 、 课 程 个 体 、 成 绩 个 体 以 及 grade 和 passed 的 关系 
来 进行 推理 ， 可 能 会 更 容易 些 。 通 过 定义 特征 passed 是 怎样 依赖 于 特征 grade 的 ，Agent 
便 能 将 其 应 用 于 每 个 学 生 与 每 门 课程 。 而 且 ， 在 Agent 知道 任意 个 体 及 其 所 有 特征 之 前 ， 
这 些 就 能 完成 。 < 

因此 ， 用 个 体 及 他 们 之 间 的 关系 进行 相关 性 描述 ， 比 对 那些 特征 或 命题 进行 处 理 ， 可 
能 更 为 简便 。 例 如 ，100 个 个 体 和 其 二 值 关系 可 以 用 100: 二 10 000 4 fret 2° ARASH 
表示 。 通 过 一 系列 的 关系 与 个 体 推理 ，Agent 可 以 只 通过 状态 对 全 部 类 型 的 个 体 进行 解释 
推理 ， 而 不 用 枚 举 特征 或 命题 。Agent 有 时 不 得 不 对 无 限 个 体 集 进 行 推 理 ， 如 所 有 数 的 集 
合 或 所 有 语句 的 集合 。 对 于 无 限 个 体 集 ，Agent 无 法 用 状态 或 特征 进行 推理 ， 只 能 在 关系 
层面 上 进行 推理 。 

在 表示 方案 维度 中 ，Agent 可 以 通过 以 下 几 个 方面 进行 推理 : 

。 状态 ; 

。 特征 ; 

。 从 个 体 与 关系 角度 进行 的 关系 描述 。 

一 些 框架 结构 是 通过 状态 来 描述 的 ， 而 有 些 则 是 通过 特征 完成 的 ， 另外 有 些 则 是 建立 
在 关系 的 基础 上 。 

我 们 将 在 第 3 章 介 绍 状 态 推 理 ， 在 第 4 章 介 绍 特征 推理 ， 关 系 推理 将 在 第 12 章 介绍 。 


1.5.3 规划 期 


下 一 个 维度 是 用 来 说 明 Agent 规划 的 向 前 时 间 的 程度 。 例 如， 一 只 狗 被 叫 过 来 ， 它 会 
为 了 未 来 能 得 到 奖励 而 奔跑 ， 而 不 仅仅 是 为 了 得 到 即时 的 奖励 而 行动 。 狗 不 会 为 了 未 来 任 
意 无 限期 长 的 目标 而 行动 (例如 几 个 月 后 ) ， 而 人 类 可 以 (例如 为 了 得 到 明年 的 假期 而 努力 
工作 )， 这 个 说 法 看 来 是 对 的 。 

当 Agent 决定 做 什么 时 ， 能 够 观察 到 未 来 的 远近 ， 我 们 称 之 为 规划 期 。 也 就 是 说 ， 规 
划 期 是 Agent 认为 它 的 动作 结果 所 能 影响 的 向 前 程度 。 从 完备 性 上 来 说 ， 包 括 Agent 不 能 
及 时 进行 推理 的 非 规 划 情 况 。 我 们 把 Agent 做 规划 时 所 考虑 的 时 间 点 称 为 阶段 。 

在 规划 期 维度 中 ，Agent 可 以 分 为 以 下 几 种 : 

。 非 规划 Agent， 是 指 在 决定 做 什么 时 ， 不 考虑 未 来 的 影响 ， 或 者 不 涉及 时 间 的 Agent。 

。 有 限期 规划 者 ， 是 指 遵循 固定 有 限时 间 步 的 Agent。 例 如 ， 医 生 治 疗 病人 ， 但 之 

前 一 般 会 花 一 些 时 间 做 一 些 检查 ， 所 以 整个 过 程 可 以 分 为 两 个 阶段 来 规划 : 检查 
阶段 、 治 疗 阶段 。 在 退化 状况 下 ，Agent 可 能 只 进行 一 个 时 间 步 ， 我 们 称 它 是 贪 
楚 的 或 目光 短 浅 的 。 

。 不 确定 期 规划 者 ， 是 指 能 够 向 前 探索 几 步 但 是 不 预先 确定 多 少 步 的 Agent。 例 如 ， 

一 个 Agent 必须 到 达 一 个 位 置 ， 但 是 预先 不 确定 到 达 那 个 位 置 需要 多 少 步 。 
。 无 限期 规划 者 ， 是 指 一 直 在 进行 规划 的 Agent。 通 常 称 之 为 过 程 。 例 如 ， 腿 式 机 
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器 人 上 的 稳定 模块 永远 在 运行 ， 只 有 在 达到 稳定 状态 时 才 会 停止 ， 因 为 这 种 机 器 
人 永远 在 为 了 防止 摔 倒 而 维持 稳定 。 


1.5.4 不 确定 性 


Agent 可 以 假设 没有 不 确定 性 ， 也 可 以 把 不 确定 性 考虑 进去 。 不 确定 性 可 以 分 为 两 部 
分 : 感知 不 确定 性 和 效用 不 确定 性 。 

1. 感知 不 确定 性 

在 一 些 情况 中 ，Agent 能 够 直接 观察 到 世界 的 状态 。 例 如 ， 在 一 些 棋 类 游戏 中 ,或 在 
工人 工作 的 场地 ，Agent 能 够 精确 地 知道 世界 的 状态 。 在 许多 其 他 情况 中 ，Agent 能 对 世 
界 的 状态 有 一 个 带 噪 声 的 感知 ， 它 所 能 做 的 最 好 的 就 是 在 它 所 感知 的 状态 集 上 建立 概率 分 
布 。 例 如 ， 给 定 一 个 病人 的 症状 ， 医 师 实际 上 可 能 不 知道 病人 患 了 什么 病 ， 而 只 有 病人 可 
能 患 有 疾病 的 概率 分 布 。 

感知 不 确定 性 维度 主要 是 用 来 说 明 Agent 能 否 从 观察 中 得 到 世界 的 状态 。 

。 完全 可 观察 ， 是 指 Agent 能 够 从 观察 结果 中 得 到 世界 的 状态 。 

* 部 分 可 观察 ， 是 指 Agent 不 能 直接 观察 到 世界 的 状态 。 出 现 这 种 情况 可 能 是 相同 

的 观察 结果 导致 很 多 可 能 的 状态 或 是 观察 结果 有 噪声 。 

将 世界 假设 为 完全 可 观察 的 是 一 种 简化 假设 ， 其 目的 是 为 了 使 推理 更 容易 进行 。 

2. 效用 不 确定 性 

在 一 些 情况 中 ，Agent 能 够 知道 动作 效果 ， 也 就 是 说 ， 给 定 一 个 状态 和 动作 ， 它 能 精 
确 地 预测 出 在 那 种 状态 下 运行 那 种 动作 后 的 状态 。 例 如 ， 与 文件 系统 进行 交互 的 Agent 能 
够 在 给 定 的 文件 系统 的 状态 下 预测 出 删除 一 个 文件 后 的 效果 。 在 很 多 情况 下 ，Agent 很 难 
预测 动作 效果 ， 最 好 也 只 能 有 一 个 效果 的 概率 分 布 。 例 如 ， 即 使 一 个 人 知道 狗 的 状态 ， 他 
可 能 也 不 会 知道 对 狗 进 行 命令 后 的 效果 ， 但 基于 经 验 ， 他 可 能 会 知道 这 只 狗 可 能 会 做 些 什 
么 。 即 使 是 那些 他 以 前 没有 见 过 的 狗 ， 狗 的 主人 甚至 也 会 知道 在 他 发 出 命令 时 那些 狗 会 做 
HATS . 

效用 不 确定 性 从 动力 学 方面 可 以 分 为 : 

© 确定 性 的 一 一 动作 所 导致 的 状态 由 动作 及 之 前 的 状态 决定 。 

。 随机 的 一 一 对 于 结果 状态 ， 只 能 给 出 一 个 概率 分 布 。 

本 维度 只 在 世界 完全 可 观察 时 成 立 。 如 果 世 界 是 部 分 可 观察 的 ， 针 对 动作 效果 依赖 于 
不 可 观察 的 特征 的 情况 ， 随 机 系统 可 以 建立 一 个 确定 性 系统 模型 。 它 是 一 个 单独 的 维度 ， 
因为 我 们 建立 的 很 多 框架 都 是 针对 完全 可 观察 的 、 随 机 动作 的 情况 。 

对 确定 性 行为 的 规划 将 在 第 8 章 介绍 ， 对 随机 动作 及 部 分 可 观察 域 的 规划 将 在 第 9 章 
介绍 。 


1.5.5 ae 


Agent 会 为 自身 获取 更 优 的 结果 ， 做 出 某 一 动作 优 于 另 一 动作 选择 的 唯一 原因 是 其 偏 
好 动作 会 导致 更 理想 的 结果 。 

一 些 Agent 可 能 会 有 一 个 简单 的 目标 ， 可 能 是 要 达到 的 状态 或 是 要 证 明 为 真 的 命题 ， 
例如 为 主人 拿 一 杯 咖啡 (在 她 有 咖啡 的 状态 时 结束 ) 。 另 外 一 些 Agent 则 可 能 会 有 更 为 复杂 
的 偏好 。 例 如 ， 医 师 一 般 会 考虑 痛苦 、 预 期 寿命 、 生 命 质量 、 金 钱 成 本 (对 病人 、 医 生 和 
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社会 )、 在 诉讼 案例 中 为 决定 辩护 的 能 力 以 及 其 他 一 些 必要 的 东西 。 当 这 些 条 件 发 生 冲 突 
[24] 时 ， 正如 他 们 总 是 做 的 那样 ， 医师 必须 对 这 些 考虑 做 豆 折 中 处 理 。 
偏好 维度 是 看 Agent 是 否 有 : 
。 目标 。 此 目标 可 能 是 在 某 一 最 终 状态 下 要 达到 的 完成 目标 ， 或 是 在 所 有 已 访问 过 
的 状态 中 必须 被 保持 的 目标 。 例 如 ， 机 器 人 的 目标 可 能 是 拿 到 两 杯 咖啡 和 一 只 香 
AE. FFA FER HAA RE HAL HET A. 
。 复杂 偏好 。 复 杂 偏 好 涉及 在 不 同时 期 权衡 各 种 期 望 的 结果 。 序 数 (ordinal) 偏好 就 
是 只 注重 偏好 的 排序 。 基 数 (cardinal) 偏 好 涉及 有 关 值 的 大 小 。 例 如 ， 比 起 黑 咖 啡 
来 说 ， 山 姆 更 喜欢 卡 布 奇 诺 ， 而 比 起 茶 来 说 ， 更 喜欢 黑 咖 啡 ， 这 是 序数 偏好 。 基 
数 偏好 给 定 等 待 时 间 与 饮料 类 型 间 的 权衡 ， 各 种 味道 之 间 的 权衡 ， 如 果 咖 啡 的 味 
道 特别 好 ，Sam 就 能 在 等 待 咖啡 的 过 程 中 容忍 时 间 的 煎熬 。 
目标 将 在 第 8 章 介 绍 ， 复 杂 偏 好 将 在 第 9 章 介绍 。 


1.5.6 Agent 数量 


仅 一 个 Agent 在 它 所 属 的 环境 里 进行 推理 就 已 经 足够 困难 。 然 而 ， 如 果 有 多 个 Agent 进 
行 推理 将 更 为 困难 。 多 Agent 背景 中 的 Agent 应 该 具备 对 其 他 Agent 进行 策略 性 推理 的 能 
Ai, Heth Agent 可 能 会 对 它 进 行 欺骗 或 操纵 ， 也 可 能 会 与 它 进行 合作 。 对 于 多 Agent, AW 
其 他 Agent 可 以 采取 确定 性 策略 ， 因 此 最 优 的 选择 经 常 是 随机 动作 。 即 使 当 Agent 之 间 进 行 
合作 ， 具 有 共同 目标 时 ， 协 商 与 交流 的 问题 也 使 得 多 Agent 推理 更 具 挑 战 性 。 然 而 ， 许 多 领 
域 包含 多 个 Agent， 而 且 忽略 其 他 Agent 策略 的 推理 并 不 是 最 好 的 方式 。 

从 单个 Agent 的 角度 来 看 ，Agent 数量 维度 主要 是 考虑 Agent 是 否 进 行 : 

。 单个 Agent 推理 。Agent 会 假设 其 他 的 Agent 为 环境 的 一 部 分 。 如 果 没 有 其 他 的 
Agent， 或 者 其 他 Agent 的 动作 不 会 因为 这 个 Agent 的 动作 而 改变 ,那么 这 个 假 
设 是 合理 的 。 

。 多 Agent 推理 。Agent 会 将 其 他 Agent 的 推理 考虑 进来 。 当 其 他 Agent 的 目标 或 
偏好 部 分 依赖 于 此 Agent 的 行为 ,或 Agent 必须 与 其 他 Agent 通信 时 ， 这 种 情况 
就 会 发 生 。 

如 果 Agent 同时 进行 动作 ， 或 环境 只 是 部 分 可 观察 的 ， 那 么 与 其 他 Agent 一 起 进行 的 

[25] 推理 将 会 更 为 困难 。 多 Agent 系统 将 在 第 10 章 介 绍 。 
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在 某 些 情况 下 ，Agent 设计 者 可 能 为 Agent 建立 了 一 个 比较 好 的 模型 及 环境 。 但 通常 
情况 下 ，Agent 设计 者 无 法 建立 完美 的 模型 Agent 需要 一 些 先 验 知识 或 其 他 的 资源 来 帮 
助 它 进行 决策 ，。 

学 习 维 度 由 以 下 两 方面 决定 : 

。 已 有 的 知识 。 

。 学 到 的 知识 (从 数据 或 先前 经 验 中 获取 ) 。 

学 习 一 般 意味 着 要 找到 与 数据 相符 的 最 好 模型 ， 有 时 候 这 就 像 调 整 固定 参数 集 一 样 简 
单 ， 但 这 也 就 意味 着 要 从 一 类 表达 中 选择 最 优 的 表达 。 学 习 本 身 就 是 一 个 很 宽泛 的 领域 ， 
但 不 是 孤立 于 人 工 智能 的 其 他 领域 。 除 了 拟 合 数 据 外 ， 还 有 其 他 很 多 问题 ， 包 括 如 何 合成 


背景 知识 ， 需 要 搜集 什么 样 的 数据 ， 如 何 表 达 这 些 数据 以 及 结果 ， 什 么 样 的 学 习 偏 差 是 合 
适 的 ， 怎 样 合理 使 用 学 习 到 的 知识 去 影响 Agent 的 行为 。 
学 习 将 会 在 第 7、11 和 14 章 介绍 。 


1.5.8 计算 限制 


有 时 候 Agent 可 以 足够 迅速 地 决定 它 的 最 好 的 行为 ， 但 通常 会 有 很 多 计算 资源 限制 ， 
阻碍 实施 这 些 最 好 的 行为 。 也 就 是 说 ， 由 于 Agent 的 内 存 限制 ， 尽管 某 个 动作 是 最 好 的 ， 
但 是 它 可 能 不 能 够 迅速 地 找到 这 个 最 好 的 动作 。 人 例如， 如果 Agent 必须 现在 动作 ， 在 十 分 
钟 之 前 花费 十 分 钟 的 时 间 来 推理 最 好 应 该 做 什么 ， 就 没有 什么 用 处 。 通 常情 况 下 ，Agent 
必须 权衡 得 到 一 个 解 所 花费 的 时 间 和 解 的 好 的 程度 ; 有 时 候 迅速 地 找到 一 个 合理 解 可 能 要 
优 于 花费 更 长 时 间 来 寻求 一 个 更 好 的 解 ， 因 为 在 计算 期 间 世 界 可 能 会 改变 。 

计算 限制 维度 由 Agent 是 否 具 有 以 下 性 质 来 决定 : 

。 完全 理性 : Agent 可 以 推出 最 佳 行动 方案 ， 而 不 考虑 有 限 的 计算 资源 ; 

。 有 限 理性 ; 在 给 定 的 计算 限制 上 ， 决 定 它 所 能 找到 的 最 佳 行为 方案 。 

计算 资源 限制 包括 计算 时 间 、 内 存 和 数值 精度 。 其 中 数值 精度 的 限制 是 由 于 计算 机 不 
能 准确 地 表示 实数 而 引起 的 。 

任意 时 间 算 法 是 解 的 质量 随时 间 的 推移 而 提高 的 一 种 算法 。 实 际 上 ， 它 可 以 在 任意 时 
间 产 生 当 前 最 佳 解 ， 但 如 果 给 定 更 多 的 时 间 ， 可 能 会 产生 更 好 的 解决 方案 。 通 过 允许 
Agent 存 储 迄 今 为 止 发 现 的 最 佳 解 ， 我们 可 以 确保 得 到 解决 方案 ， 并 且 解 决 方案 的 质量 不 
SPM. Ril, SH Agent 动作 需要 花费 一 定 的 时 间 ; 对 于 Agent 来 说 ,在 找到 最 佳 解 之 
前 动作 可 能 更 好 些 。 

【 例 1-9) 1-5 说 明了 任意 时 间 算 法 的 计算 时 间 是 如 何 来 影响 解 的 质量 的 。Agent 实 
施 一 个 动作 时 ， 能 做 一 些 计 算 来 决定 要 做 什么 。 绝 对 的 解 的 质量 ， 在 时 间 零 点 执行 的 动 
作 ， 如 顶端 的 短 划 线 所 示 ， 会 随 着 Agent 利用 时 间 推 理 而 提高 。 然 而 ， 花 时 间 去 行动 会 有 
损失 。 在 本 图 中 ， 如 底部 的 虚线 所 示 ， 这 个 损 
失 与 Agent 执行 动作 之 前 的 时 间 成 比例 。 这 两 
个 值 相 加 就 能 得 到 折扣 的 质量 ， 依 赖 于 时 间 的 
计算 值 ， 这 就 是 中 间 部 分 的 实 线 。 如 图 1-5 所 
示 ， 一 个 Agent 计算 大 约 需要 2.5 个 时 间 单 
元 ， 然 后 执行 动作 ， 在 该 点 折扣 质量 达到 最 大 
值 。 如 果 计 算 持续 长 于 4.3 个 时 间 单 元 ， 产 生 
的 折扣 质量 将 会 比 仅 仅 输 出 算法 的 初始 猜测 而 
RAR EAT HT Ft ES. AE AY a A — A 
路 性 的 提高 是 非常 典型 的 ; 当 现 有 的 最 好 解 发 


z tal z 图 1-5 对 任意 时 间 算 法 来 说 ， 解 的 质量 是 一 
生变 化 时 ， 解 的 质量 会 有 一 个 跳 路 性 的 变化 。 aa Gi ee ee 


动作 值 


然而 ， 与 等 待 相关 的 损失 通常 并 不 是 一 条 简单 作 。 随 着 时 间 的 推移 ，Agent 能 够 决定 

的 直线 。 4 更 好 的 动作 。 短 划 线 表示 的 是 ， 如 果 

eee 它 一 开始 就 实施 ，Agent 迄今 为 止 所 能 

AREAS» See ee 找到 的 最 佳 动作 值 。 虚 线 表示 Agent 

应 该 立即 实施 动作 还 是 进行 更 多 的 思考 。 这 是 在 等 待 行动 时 减少 的 行为 值 。 实 线 表 
一 项 具有 挑战 性 的 难题 ， 因 为 Agent 通常 无 法 示 Agent 的 净值 ， 是 一 个 时 间 函 数 


确定 ， 当 它 仅 花 费 多 一 点 时 间 进 行 推理 时 ， 到 底 会 有 多 好 。 而 且 ， 在 考虑 是 否 进 行 推理 上 
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花费 的 时 间 会 减少 实际 推理 的 可 用 时 间 。 无 论 如 何 ， 有 限 理性 可 以 作为 近似 推理 的 基础 。 
1.5.9 多 维 交互 


图 1-6 总 结 了 一 系列 复杂 性 的 维度 。 不 幸 的 是 ， 我 们 无 法 单独 研究 这 些 维度 ， 因 为 它 
们 以 各 种 复杂 的 方式 进行 交互 。 在 这 里 ， 我 们 给 出 一 些 交 互 实 例 。 


模块 性 扁平 的 、 模 块 化 的 、 分 层 的 

表示 方案 状态 、 特 征 、 关 系 

规划 期 无 规划 、 有 限 阶 段 、 不 确定 阶段 、 无 限 阶段 
感知 不 确定 性 完全 可 观察 、 部 分 可 观察 


效用 不 确定 性 确定 性 的 、 随 机 的 

偏好 目标 、 复 杂 偏 好 

学 习 已 知 的 知识 、 学 到 的 知识 
Agent 数量 Rt Agent, # Agent 
计算 限制 完全 理性 、 有 限 理性 


图 1-6 复杂 性 维度 


表示 维度 与 模块 性 维度 进行 交互 。 一 些 层次 上 的 模块 甚至 简单 到 可 以 用 一 系列 有 限 状 
态 集 进行 推理 ， 而 其 他 的 抽象 层次 可 能 要 对 个 体 及 关系 进行 推理 。 例 如 传送 机 器 人 ， 维 持 
平衡 的 那个 模块 可 能 仅 有 一 小 部 分 状态 ， 而 必须 优先 考虑 将 多 个 包 训 传递 给 多 个 人 的 模块 
可 能 必须 对 多 个 个 体 ( 比 如 ， 人 、 包 囊 和 房间 等 ) 及 他 们 之 间 的 关系 进行 推理 。 在 更 高 层次 
上 ， 对 一 天 内 执行 的 动作 进行 推理 可 能 只 需 几 个 状态 来 概括 这 一 天 内 的 不 同 阶段 (如 ， 可 
能 有 三 个 状态 : 忙 时 、 可 请 求 时 和 再 充电 时 )。 

规划 期 与 模块 性 维度 进行 交互 。 例 如 ， 在 较 高 层次 时 ， 跑 过 来 并 得 到 治疗 后 ， 小 狗 可 
能 会 得 到 即时 的 奖励 。 当 决定 将 它 的 爪子 放 在 哪里 时 ， 可 能 会 需要 很 长 时 间 来 得 到 奖励 ， 
这 时 就 不 得 不 规划 一 个 无 限 阶 段 。 

感知 不 确定 性 可 能 对 推理 的 复杂 度 有 很 大 影响 。 对 Agent 来 说 ， 当 它 知 道 世 界 的 状态 
时 比 不 知道 时 更 容易 进行 推理 。 尽 管 对 状态 的 感知 不 确定 性 很 好 理解 ， 但 是 对 个 体 及 关系 
的 感知 不 确定 性 是 现在 研究 的 热点 。 

效用 不 确定 性 与 模块 性 维度 进行 交互 : 在 分 层 结构 的 某 个 层次 上 ， 某 个 动作 可 能 是 确 
定性 的 ， 但 在 另外 的 层次 则 可 能 是 随机 的 。 例 如 ， 你 跟 一 个 你 正 试图 讨好 的 同伴 飞 到 巴 
黎 ， 在 某 个 层面 上 来 说 ， 你 可 能 知道 你 所 在 的 位 置 (巴黎 )， 在 较 低 层面 上 ， 你 可 能 会 完全 
迷失 并 不 知道 自己 在 哪儿 。 在 负责 维持 平衡 的 更 低层 面 上 ， 你 会 知道 你 在 哪儿 : 你 正 站 在 
地 上 。 在 最 高 层面 上 ， 你 可 能 根本 不 能 确定 是 否 给 同伴 留 下 了 好 印象 。 

偏好 模型 与 不 确定 性 交互 ， 是 因为 Agent 必须 权衡 满足 有 一 定 概 率 的 主要 目标 ， 还 是 
满足 具有 更 高 概率 的 次 要 目标 。 这 个 问题 将 在 9. 1 节 进 行 讨论 。 

模块 性 可 以 使 用 多 Agent。 设 计 单 个 Agent 的 一 种 方式 是 构造 多 个 拥有 共同 目标 的 交 
H. Agent， 这 样 能 够 使 较 高 层次 的 Agent 智能 地 执行 动作 。 一 些 研究 者 ,例如 Minsky 
[1986]， 认 为 智能 是 非 Agent 社会 的 一 个 涌现 特征 。 

学 习 可 以 通过 特征 来 进行 描述 ， 决 定 哪 个 特征 值 能 够 最 好 地 预测 其 他 特征 的 值 。 然 
而 ， 学 习 也 可 以 通过 个 体 及 关系 来 进行 。 我 们 现在 已 在 学 习 层 次 结构 、 在 部 分 可 观察 领域 
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内 学 习 和 多 Agent 学 习 等 方面 做 了 很 多 工作 。 即 使 不 考虑 与 其 他 多 重 维度 的 交互 ， 这 些 研 
究 方向 本 身 也 都 具有 很 大 的 挑战 性 。 

维度 中 模块 性 和 有 限 理性 能 使 推理 更 有 效 。 虽 然 它们 使 形式 化 体系 变 得 更 为 复杂 ， 但 
却 能 够 通过 将 系统 分 解 成 更 小 的 组 件 并 提供 所 需 的 近似 值 ， 使 Agent 能 够 在 有 限时 间 和 有 
限 的 内 存 中 及 时 地 执行 动作 ， 来 帮助 构建 更 为 复杂 的 系统 。 


1.6 原型 应 用 


人 工 智 能 领域 的 应 用 广泛 而 且 多 样 化 ， 包 括 医 疗 诊断 、 工 厂 流程 调度 、 险 恶 环境 中 的 
机 器 人 、 博 弈 、 太 空中 的 无 人 驾驶 车 辆 、 自 然 语 言 处 理 系统 、 指 导 系 统 等 。 这 些 应 用 并 不 
是 独立 进行 的 ， 我 们 抽象 出 这 些 应 用 的 本 质 特 点 ， 来 研究 智能 推理 及 动作 背后 的 原理 。 
本 节 概 述 了 4 个 应 用 领域 ， 其 中 的 几 个 实例 将 贯穿 整 本 书 。 尽 管 我 们 介绍 的 几 个 实例 
都 很 简单 (如 此 他 们 才 适 用 于 本 书 )， 但 其 应 用 领域 代表 了 人 工 智 能 技术 能 够 或 正在 应 用 的 
领域 范围 。 
4 个 应 用 领域 如 下 所 示 : 
。 自主 传送 机 器 人 会 在 茶 个 建筑 物 旁 徘徊 ， 负 责 给 里 面 的 人 传送 包 右 和 咖啡 。 这 种 
传送 Agent 能 够 找到 路 径 、 分 配 资源 、 接 受 人 们 的 请 求 、 决 定 优 先 顺 序 、 在 不 伤 
害 到 人 和 它 本 身 的 情况 下 传递 包 误 。 
。 诊断 助手 帮助 人 们 找 出 问题 并 提出 修改 或 治疗 意见 来 改正 问题 。 例 如 电工 助手 ， 
能 够 在 给 定 电工 问题 特征 的 情况 下 就 房屋 中 的 错误 提出 建议 ， 包 括 保险 丝 烧 断 、 
灯 开 关 毁 坏 、 灯 泡 烧 坏 等 情况 。 再 如 医疗 诊断 助手， 在 特定 医疗 领域 和 病人 的 症 
状 及 病历 等 知识 的 基础 上 ， 可 以 发 现 潜 在 的 疾病 、 有 用 的 检查 以 及 合适 的 治疗 手 
段 。 对 检测 和 修理 它 的 人 们 以 及 那些 要 为 它们 的 行为 最 终 负责 的 人 们 ， 这 种 助手 
可 以 解释 它 的 推理 过 程 。 
。 指导 系统 与 一 个 学 生 进行 交互 ， 展 示 某 些 领 域 的 信息 ， 并 检查 学 生 的 知识 或 行为 。 
这 不 仅仅 是 向 学 生 展 示 信 息 。 做 到 像 一 个 好 老师 那样 ， 根 据 每 个 学 生 的 知识 、 学 
习 偏 好 及 误区 ， 做 到 因材施教 ， 展 示 不 同 的 信息 ， 这 是 一 项 更 具有 挑战 性 的 工作 。 
系统 必须 要 理解 所 设计 的 科目 以 及 学 生 们 的 学 习 情 况 。 
。 一 个 交易 Agent 能 够 知道 一 个 人 想 要 什么 ， 能 买 什么 ， 并 为 他 的 利益 服务 。 它 应 
该 知道 他 的 需求 和 偏好 ， 以 及 如 和 何 权衡 竞争 性 目标 。 例 如 ， 如 果 一 个 家 庭 要 去 度 
假 ， 旅 游 Agent 需要 预订 宾馆 、 飞 机 票 、 出 租车 以 及 娱乐 活动 ， 所 有 这 些 都 要 相 
互 适 合 。 它 应 该 决定 顾客 的 权衡 。 如 果 最 每 适 的 宾馆 无 法 为 这 一 家 人 在 所 有 的 假 
期 内 提供 住宿 ， 这 时 就 要 看 他 们 是 更 喜欢 在 余下 时 间 选 择 更 好 的 宾馆 ， 还 是 并 不 
喜欢 变换 宾馆 。 它 甚至 可 以 为 特价 商品 货 比 三 家 或 一 直 等 到 更 好 的 交易 出 现 。 
本 书 中 所 有 实例 都 应 用 到 上 述 4 个 领域 ， 在 以 下 几 个 小 节 我 们 将 详细 讨论 每 个 应 用 
领域 。 


1.6.1 自主 传送 机 器 人 


我 们 来 想象 一 个 机 器 人 ， 它 具有 多 个 轮子 ， 能 够 捡 起 物体 并 可 以 放下 。 它 具有 感知 能 
力 ， 因 此 它 能 识别 需要 操控 的 目标 物体 ， 也 能 绕 开 障碍 物 。 它 可 以 以 自然 语言 的 形式 接受 
命令 ， 并 遵循 这 个 命令 ， 能 够 在 目标 发 生 冲 突 时 做 出 合理 选择 。 这 种 机 器 人 可 以 应 用 于 办 
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公 环 境 中 ， 来 传送 包 囊 、 邮 件 、 咖 啡 等 物品 ， 或 者 杞 入 轮椅 中 来 帮助 残疾 人 。 它 应 该 是 有 
用 且 安全 的 。 
在 图 1-3Agent 的 黑 盒 特征 中 ， 自 主 传送 机 器 人 有 以 下 输入 ， 


先 验 知识 ， 由 Agent 设计 者 提供 ， 关 于 Agent 自身 的 能 力 ， 比 如 Agent 可 能 会 遇 
到 什么 样 的 目标 物 并 且 区 分 这 些 物 品 ， 请 求 的 含义 ， 还 可 能 有 Agent 的 环境 ， 上 比 
如 地 图 ; 

通过 动作 得 到 的 先前 经 验 ， 例 如 ， 它 的 动作 效果 ,世界 中 的 常见 对 象 是 什么 ,在 
同一 天 中 的 不 同时 段 会 有 什么 样 的 请 求 ; 

目标 ， 可 以 表示 为 应 该 传送 什么 ， 什 么 时 候 传 ， 以 及 如 何 进行 权衡 ,例如 什么 时 
修 它 必须 放弃 一 个 目标 去 完成 男 外 一 个 ， 或 者 在 执行 动作 的 迅速 性 与 安全 性 之 间 
做 出 权衡; 

观察 值 ， 从 相机 、 声 波 定位 仪 、 触 党 、 声 音 、 激 光 测 更 仪 或 键盘 这 样 的 输入 设备 
中 获取 对 环境 的 观察 值 。 


机 器 人 的 输出 是 机 械 控制 ， 规 定 它 的 轮子 如 何 转动 ， 它 的 四 肢 应 该 往 哪 儿 移动 ， 它 的 
钳子 应 该 做 什么 。 其 他 的 输出 还 有 语音 和 视频 输出 。 

在 复杂 度 的 一 系列 维度 中 ， 当 机 器 人 是 忆 平 系统 时 是 最 简单 的 状况 ， 用 一 系列 的 状态 
来 表达 ， 没 有 不 确定 性 ， 有 可 完成 的 目标 ， 没 有 其 他 Agent， 有 给 定 的 知识 ， 而 且 具 有 完 
全 理性 。 在 这 种 情况 下 ， 存 在 一 个 不 确定 阶段 规划 期 ， 决 定 要 做 什么 的 问题 被 简化 成 状态 
图 中 寻找 一 条 路 径 的 问题 。 这 一 部 分 将 在 第 3 章 介绍 。 

对 于 推理 任务 来 说 ， 每 一 个 维度 上 都 能 增加 概念 复杂 度 : 


层次 分 解 ， 通 过 将 每 个 模块 简单 化 而 且 能 够 被 自身 所 理解 ， 从 而 使 整个 系统 的 复 
杂 度 增加 。 第 2 章 将 介绍 这 一 部 分 。 

用 一 系列 的 特征 建 模 比 用 清晰 状态 建 模 使 系统 更 容易 理解 。 例 如 ， 可 能 会 有 机 器 
人 的 位 置 特征 ， 它 所 有 的 燃料 数量 特征 ， 它 所 运送 的 物品 特征 等 。 用 一 系列 的 状 
态 进行 推理 ， 其 中 每 一 个 状态 是 对 应 于 每 个 特征 的 值 的 分 配 ， 失 去 了 这 些 特 征 提 
供 的 结构 信息 。 用 一 系列 的 特征 表示 来 进行 推理 ， 可 能 会 开发 计算 增益 。 用 一 系 
列 的 特征 进行 规划 将 在 第 8 章 讨论 。 当 涉及 多 个 个 体 时 (如 多 人 或 多 个 传送 物 )， 
用 一 系列 的 个 体 与 关系 进行 推理 可 能 会 更 容易 些 。 用 一 系列 的 个 体 与 关系 进行 规 
划 将 在 14.1 PHE. 

WR Agent 仅仅 是 向 前 看 几 步 ， 它 的 规划 期 是 有 限 的 ; 而 如 果 它 有 一 组 固定 的 要 
达到 的 目标 集 ， 那 么 它 的 规划 期 就 是 不 确定 的 。 随 着 不 间断 的 需求 和 动作 ， 为 了 
长 期 幸存 ， 它 的 规划 期 是 无 限 的 ， 例 如 ， 邮 件 到 达 时 就 传送 ， 电 池 电 量 低 时 就 先 
进行 充电 。 

可 能 存在 目标 如 “将 咖啡 传送 给 克 里 斯 ， 并 保证 你 自己 一 直 有 能 量 "。 更 为 复杂 的 
目标 可 能 会 是 “将 实验 室 打 扫 干 净 ， 并 将 所 有 的 东西 归 位 ”。 有 时 可 能 存在 更 复杂 
的 偏好 ， 例 如 传递 机 器 人 要 完成 “邮件 到 达 时 就 传送 邮件 ， 有 咖啡 请 求 时 要 尽 可 能 
快 地 服务 ,但 是 传送 标记 为 重要 的 信息 更 重要 ,并且 当 克 里 斯 请 求 蜂 啡 时 ， 需 要 
更 快 地 为 她 服务 ”。 

可 能 会 有 感知 不 确定 性 ， 因 为 基于 Agent 有 限 的 传感器 ， 它 可 能 不 知道 世界 中 存 
在 什么 。 

可 能 会 有 行为 效用 的 不 确定 性 ， 无 论 是 车 轮滑 动 这 样 的 低层 次 行为 ， 还 是 像 Agent 


P1Ë ALBHSA Agent 21 


在 传送 咖啡 给 克 里 斯 时 不 知道 是 否 已 经 将 咖啡 放 在 她 的 书桌 上 这 样 的 高 层次 行为 ， 
都 具有 不 确定 性 。 
。 可 能 存在 多 个 机 器 人 ， 它 们 可 能 
相互 协调 来 传递 咖啡 与 包 襄 ， 志 
可 能 相互 争夺 电源 插座 。 也 可 能 
会 有 儿童 来 戏弄 机 器 人 -。 
。 机 器 人 有 许多 要 学 习 的 ， 例 如 地 
板 的 光滑 程度 与 它 的 发 亮 程度 成 
一 定 的 函数 关系 ， 克 里 斯 在 同一 
天 的 不 同时 段 去 哪里 闲 选 ， 克 里 
斯 会 在 什么 时 候 要 一 杯 映 啡 ， 什 
么 动作 会 得 到 最 高 的 奖励 。 
图 1-7 为 传送 机 器 人 描述 了 一 个 典型 
的 实验 室 环境 。 环 境 由 4 个 实验 室 和 很 ”图 1-7 传送 机 器 人 环境 图 ， 说 明 一 个 典型 的 实验 室 
多 办 公 室 组 成 ， 机 器 人 仅仅 能 够 推荐 门 ， 环境 ， 也 说 明了 门 的 位 置 和 它们 开放 哪 一 条 
而 且 图 中 门 的 方向 反映 了 机 器 人 的 移动 路 径 
方向 。 房 间 需 要 钥匙 ,钥匙 可 以 从 多 种 来 源 获得 。 机 器 人 需要 在 这 些 房间 之 间 传 递 包 囊 、 
饮料 或 菜肴 。 环 境 同样 包括 对 机 器 人 有 洪 在 危险 的 楼 梯 。 


1.6.2 诊断 助手 


诊断 助手 在 一 些 特定 系统 ， 如 就 医 的 病人 、 房 屋 中 的 电力 系统 和 汽车 等 ， 给 大 们 提供 
建议 。 诊 断 助 手 应 该 为 潜在 的 故 信 或 疾病 提供 建议 ， 要 进行 什么 检查 ， 要 开 什么 样 的 处 
方 。 为 了 给 出 这 些 建 议 ， 诊 断 助 手 需要 一 个 系统 模型 ， 包 括 关 于 可 能 的 原因 的 知识 ， 有 效 
检查 的 知识 ， 有 效 治疗 的 知识 ， 以 及 系统 的 观察 值 ( 经 常 称 之 为 症状 ) 。 

为 了 能 够 使 用 ， 诊 断 助 手 必须 提供 一 些 附加 值 ， 让 人 们 能 够 容易 使 用 它 ， 而 不 是 变 得 

比 其 价值 更 为 麻烦 。 诊 断 助 手 与 因特网 相连 ， 可 以 从 全 世界 吸收 专家 意见 ， 它 的 行为 会 以 
最 新 的 研究 为 基础 。 然 而 ， 它 必须 能 够 判定 所 提出 的 诊断 或 行为 是 不 是 合适 。 人 类 应 该 是 
对 计算 机 系统 持 怀疑 态度 ， 因 为 它 不 透明 而 且 令 人 费解 。 当 人 类 为 他 们 所 做 的 负责 时 ， 即 
使 是 基于 计算 机 系统 的 建议 ， 他 们 也 应 该 为 所 提出 的 行为 提供 合理 的 判断 。 

就 图 1-3Agent 的 黑 盒 定义 来 说 ， 诊 断 助手 有 以 下 输入 ， 

。 先 验 知识 ， 例 如 开关 和 灯泡 如 何 正 常 工作 ， 疾 病 或 故障 怎样 显现 出 来 ， 检 查 所 提 
供 的 信息 ， 以 及 修理 或 治疗 后 的 效果 。 

。 先前 经 验 ， 是 以 前 案例 的 一 系列 数据 ， 包 括 修理 或 治疗 后 的 效果 ， 故 障 或 疾病 的 
流行 程度 ， 这 些 疾病 和 故障 的 特征 的 普遍 程度 ， 检 查 的 准确 度 。 这 些 数据 通常 是 
关于 类 似 的 人 工 产品 或 病人 的 ， 而 非 实际 需要 诊断 的 那个 。 

。 修复 设备 的 目标 以 及 在 多 种 选择 中 进行 权衡 ， 例 如 是 修理 还 是 替换 不 同 的 部 件 ， 
病人 是 否 希 望 活 得 更 久 些 ， 那 将 意味 着 会 遭受 更 多 的 疼痛 。 

。 设备 或 病人 的 症状 观察 值 。 

诊断 助手 的 输出 是 一 系列 治疗 方法 或 检查 的 建议 ， 以 及 提出 这 些 建议 的 理由 。 

【 例 1-10) 图 1-8 描述 了 一 个 房屋 中 的 电力 分 布 系统 。 在 这 个 房屋 中 ， 电 能 通过 断路 
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器 进入 房屋 ， 然 后 转 到 插座 或 通过 电灯 开关 转 到 电灯 处 。 例 如 ， 当 有 电 进 入 房屋 ， 断 路 器 
ch 打开 ， 开关 s As, 都 合 上 去 或 合 下 来 时 ， 灯 是 开 着 的 。 这 是 一 类 模型 ， 正 常情 况 
下 ， 房 主 都 会 将 电源 放置 在 屋内 ， 在 给 定 开关 位 置 ， 哪 些 灯 开 着 哪些 灯 关 着 的 状况 下 ， 通 
过 模型 确定 所 出 现 的 问题 。 这 个 诊断 助手 可 以 帮助 房 主 或 电工 检查 电力 问题 。 <a 





图 1-8 诊断 助手 的 电气 环境 


BNE SOMMERS: 

。 层次 分 解 允 许 在 处 理 低 层 原 因 的 同时 维持 高 层 目 标 ， 而 且 能 够 进行 详细 的 系统 监 
控 。 例 如 在 医疗 领域 ， 一 个 模块 可 以 处 理 心脏 监控 的 输出 ， 并 给 出 高 层 的 观察 值 ， 
如 在 心率 发 生变 化 时 给 出 通知 ; 另外 一 个 模块 会 接收 这 个 观察 值 和 其 他 高 层 的 观 
察 值 ， 并 注意 心率 变化 的 同时 引起 的 其 他 症状 。 在 电气 领域 ， 图 1-8 描述 的 是 一 
个 抽象 层次 ， 更 低层 次 可 以 详细 描述 电压 、 电 线 如 何 连 接 和 开关 的 内 部 结构 。 

。 大 多 数 系统 太 过 复杂 而 无 法 用 一 系列 的 状态 进行 推理 ， 所 以 它们 经 常用 一 系列 的 
特征 或 个 体 部 件 及 它们 间 的 关系 来 描述 。 例 如 ， 人 的 身体 可 以 用 一 系列 各 种 各 样 
的 部 件 的 特征 值 来 描述 。 设 计 者 在 不 知道 实际 个 体 的 情况 下 ， 可 能 会 想 建立 动力 
学 模型 。 例 如 ， 电 力 诊断 系统 的 设计 者 在 知道 哪些 灯 和 开关 存在 于 房屋 里 之 前 ， 
也 就 是 在 知道 它们 的 特征 之 前 ， 为 灯 和 开关 如 何 工 作 建 立 模型 。 这 时 可 以 利用 一 
系列 的 关系 与 交互 ， 当 知道 个 体 时 通过 添加 独立 部 件 来 完成 这 个 模型 。 

。 对 静态 系统 进行 推理 是 可 能 的 。 例 如 ， 给 定 开 关 位 置 ， 当 灯 处 于 关闭 状态 时 ， 对 
可 能 出 现 的 问题 进行 推理 。 也 可 以 对 检查 和 治疗 的 结果 进行 推理 ，Agent 会 一 直 
进行 检查 和 治疗 ， 直 到 问题 解决 ， 或 者 Agent 会 实施 持续 的 系统 监控 ， 持 续 修 复 
任何 问题 。 

。 感知 不 确定 性 是 诊断 需要 面 对 的 基本 问题 。 如 果 Agent 无 法 直接 观察 到 系统 的 内 
部 结构 ， 这 时 就 需要 进行 诊断 。 

* 效用 不 确定 性 也 会 存在 ， 因 为 Agent 可 能 不 知道 治疗 结果 ， 而 且 治 疗 经 常会 出 现 
未 预料 到 的 结果 。 

。 目标 ， 可 能 会 像 “ 确 定 出 错 的 问题 "这么 简单 ， 但 通常 会 涉及 花费 、 疼 痛 、 预 期 寿 
命 、 诊 断 的 正确 率 、 疗 效 的 不 确定 性 、 治 疗 的 副作用 不 确定 性 等 方面 的 复杂 权衡 。 

。 尽管 诊断 通常 是 一 个 单 Agent 问题 ， 但 当 涉 及 多 个 专家 时 ， 诊 断 会 变 得 更 复杂 ， 
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因为 他 们 可 能 会 有 冲突 的 经 验 或 模型 ， 也 可 能 会 有 多 个 病 大 来 竞争 Agent 的 资源 
《例如 医生 的 时 间 、 手 术 室 ) 。 

。 学 习 是 诊断 的 基础 。 通 过 学 习 我 们 可 以 得 知 疾病 的 进展 情况 ， 以 及 治疗 进行 得 怎 
么 样 。 对 于 学 习 来 说 ， 诊 断 是 一 个 具有 挑战 性 的 领域 ， 因 为 所 有 的 病人 都 是 不 同 
的 ， 而 每 个 医生 的 经 验 都 只 是 针对 带 有 任意 特定 特征 集 的 少 部 分 病人 。 医 生 们 看 
到 是 有 偏差 的 人 口 样本 ,那些 来 看 病 的 人 ， 通 常 都 会 有 一 些 不 寻常 的 或 疼痛 的 
病症 。 

。 诊断 通常 需要 快速 地 回答 ， 没 有 时 间 进 行 详尽 的 推理 或 做 到 完全 合理 。 


1.6.3 智能 指导 系统 


智能 指导 系统 是 在 某 些 领域 指导 学 生 的 计算 机 系统 。 
例如 ， 在 基础 物理 的 指导 系统 中 ， 如 力学 ， 系 统 会 介绍 理论 知识 ， 给 出 一 些 固有 的 例 
子 ， 还 会 向 学 生 提 问 ， 当 然 它 必 须 能 够 理解 学 生 的 回答 ， 并 基于 学 生 的 回答 判定 他 掌握 知 
识 的 程度 。 这 会 影响 学 生 向 系统 提出 什么 问题 以 及 系统 向 学 生 提 出 什么 问题 。 学 生 向 系统 
提问 问题 ， 系 统 应 该 能 够 解决 在 物理 学 领域 内 的 问题 。 
就 图 1-3Agent 的 黑 盒 定义 来 说 ， 智 能 指导 系统 有 以 下 输入 : 
。 先 验 知识 ， 由 Agent 设计 者 提供 ， 包 括 教学 主题 、 教 学 策略 、 可 能 误差 和 学 生 的 
误解 。 
。 先前 经 验 ， 是 指导 系统 通过 与 学 生 交 互 获得 的 ， 关 于 学 生 犯 的 错误 、 学 习 一 些 知 
识 需要 多 少 例子 和 学 生 所 遗忘 的 。 所 获得 的 信息 可 以 针对 一 般 学 生 ， 也 可 针对 特 
定 学 生 。 
。 关于 每 个 话题 的 重要 性 、 学 生 期 望 得 到 的 成 就 水 平 以 及 与 可 用 性 相关 的 花费 的 偏 
好 ,它们 之 间 通 常会 有 很 复杂 的 权 衔 。 
。 学 生 测验 结果 的 观察 值 ， 学 生 与 系统 交互 (或 不 交互 ) 的 观察 值 。 学 生 可 以 提出 问 
题 或 提供 新 的 实例 。 
指导 系统 的 输出 是 给 学 生 提供 的 信息 、 学 生 应 该 要 做 的 测试 、 问 题 的 答案 给 父母 和 教 
师 的 报告 。 
每 个 维度 都 与 指导 系统 相关 : 
。 应 当 有 Agent 的 层次 分 解 和 教学 任务 分 解 两 个 部 分 。 在 学 习 高 层 概念 之 前 ， 学 生 
应 该 被 教授 基础 知识 。 指 导 系 统 有 高 层 教 学 策略 ， 但 是 在 更 多 较 低 的 层次 上 ， 它 
必须 为 一 个 测验 设计 实例 的 细节 部 分 与 特殊 间 题 。 
。 指导 系统 可 以 用 一 系列 学 生 的 状态 来 进行 推理 。 然 而 ， 实 际 上 学 生 以 及 教学 科目 
一 般 都 具有 多 个 特征 。 如 果 所 有 的 例子 都 是 固定 的 ， 而 且 是 针对 一 个 学 生 进 行 推 
理 ， 那 么 物理 指导 就 能 够 用 在 设计 时 就 已 知 的 一 系列 特征 来 进行 推理 。 对 于 更 复 
杂 的 情况 ， 指 导 系 统 应 该 会 涉及 个 体 及 其 之 间 的 关系 。 如 果 指 导 系 统 或 学 生 能 够 
利用 多 个 个 体 创造 实例 ， 那 么 这 个 系统 在 设计 时 可 以 不 知道 特征 ， 并 用 一 系列 个 
体 及 其 之 间 的 关系 进行 推理 。 
。 在 规划 期 方面 ， 在 测验 的 整 段 时 期 内 ， 认 为 此 领域 是 静态 的 ， 而 且 学 生 在 测验 时 
不 会 进行 学 习 的 假设 是 合理 的 。 对 一 些 子 任务 来 说 ， 有 限期 比较 合适 。 例 如 ， 可 
能 会 有 教学 、 测验、 再 教学 这 样 的 序列 。 在 其 他 情况 下 ， 在 设计 时 系统 根本 不 知 
道 会 进行 到 哪 一 步 ， 直 到 学 生 掌握 一 些 概念 ， 这 是 一 个 无 限期 。 还 可 以 对 教学 建 
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模 以 作为 一 种 持续 的 学 习 和 测验 过 程 ， 并 伴随 着 适当 的 休息 ， 同 时 不 希望 系统 在 
此 过 程 中 终止 。 

。 不 确定 性 起 很 大 的 作用 。 系 统 不 能 直接 观察 到 学 生 的 知识 ， 它 只 是 基于 学 生 提问 
的 问题 或 没有 提问 的 问题 以 及 测验 结果 的 一 些 感知 输入 ， 系 统 不 会 确切 地 知道 某 
个 特定 的 教学 片段 的 确定 效果 。 

。 尽管 系统 有 一 些 像 教授 某 些 特定 概念 这 样 的 简单 目标 ， 但 它 可 能 更 需要 考虑 很 多 
复杂 的 偏好 。 其 中 一 个 理由 是 由 于 不 确定 性 ， 根 本 就 没有 办 法 保证 学 生 能 够 知道 
所 教授 的 概念 ; 任何 使 学 生 知道 一 个 概念 的 可 能 性 最 大 化 的 方法 都 很 恼人 ; 因为 
当 疲 劳 或 无 聊 导 致 学 生 的 微小 错误 时 ， 系 统 都 会 持续 反复 地 进行 教学 与 测验 。 更 
多 复杂 的 偏好 使 如 下 方面 的 权衡 成 为 可 能 : 概念 的 充分 讲解 、 学 生 的 厌烦 情绪 、 
所 花 的 时 间 和 重复 测验 的 数量 。 用 户 可 能 对 教学 风格 有 偏好 也 应 该 考虑 。 

。 将 系统 作为 一 个 单 Agent 问题 进行 处 理 更 为 合适 。 然 而 ， 学 生 、 老 师 和 父母 都 有 
必须 考虑 的 不 同 偏好 。 每 一 个 Agent 都 能 不 说 出 真相 地 策略 性 地 实施 动作 。 

。 我 们 期 望 系统 能 够 学 习 以 下 内 容 : 教学 策略 是 什么 ， 测 验 概念 时 的 一 些 问 题 怎么 
样 ， 学 生 犯 的 共同 错误 是 什么 。 它 能 够 学 习 一 般 知 识 或 针对 某 一 主题 的 特定 知识 
(例如 ， 对 于 教授 力学 知识 来 说 ， 学 习 什 么 策略 适用 )， 或 者 针对 某 个 特定 学 生 的 
知识 ， 如 对 Sam 管用 的 知识 。 

。 选择 最 合适 的 材料 来 介绍 知识 需要 花费 大 量 的 计算 时 间 。 然 而 ， 学 生 必 须 及 时 做 
出 反应 ， 有 限 理性 能 够 确保 在 学 生 等 待 时 系统 不 会 计算 过 长 时 间 。 


1.6.4 交易 Agent 


交易 Agent 就 像 是 一 个 机 器 人 ， 但 它 不 是 与 物理 环境 进行 交互 ， 而 是 与 信息 环境 进行 
交互 。 它 的 任务 是 为 用 户 获 取 商 品 及 服务 。 它 必须 了 解 用 户 的 需求 ， 并 与 卖 者 进行 交互 
(如 在 网 上 )。 最 简单 的 交易 Agent 是 拍卖 场所 为 用 户 进行 代理 投标 的 Agent， 系 统 会 在 达 
到 用 户 的 价格 限制 之 前 一 直 维 持 出 价 的 状态 。 更 复杂 的 交易 Agent 会 购买 多 个 互补 的 物 
品 ， 像 预订 机 票 、 宾 馆 、 出 租车 这 样 一 个 组 合 ， 并 权衡 竞争 性 偏好 。 另 外 一 个 交易 Agent 
的 实例 是 一 种 可 以 显示 家 里 有 多 少食 物 与 杂货 的 Agent， 可 以 监控 价格 ， 并 在 购买 之 前 调 
整 顺序 ， 使 费用 降低 到 最 小 。 
在 图 1-3Agent 的 黑 合 定义 中 ， 交 易 Agent 有 以 下 输入 : 
。 关于 货物 或 服务 类 型 、 出 售 业 务 、 拍 卖 流 程 等 的 先 验 知识 ; 
。 先前 经 验 ， 哪 儿 是 寻找 特价 物品 的 最 好 地 方 ， 拍 卖 中 价格 会 随时 间 如 何 变化 ， 特 
价 什么 时 候 会 有 上 升 的 倾向 ; 
。 用 户 想 要 的 物品 的 偏好 ， 怎 样 权 衡 有 冲突 的 目标 ; 
。 什么 物品 是 可 用 的 、 物 品 的 价格 、 可 购买 的 时 间 范 围 这 几 个 方面 的 观察 值 。 
交易 Agent 的 输出 是 用 户 能 够 接受 或 拒绝 的 建议 ， 或 者 是 一 个 实际 购买 。 
交易 Agent 应 该 考虑 以 下 维度 : 
。 由 于 域 的 复杂 度 ， 层 次 分 解 是 必要 的 。 考 虑 为 旅行 者 做 好 假期 所 有 的 安排 与 购物 
这 样 一 个 问题 。 如 果 有 一 个 专门 购买 机 票 并 且 能 优化 转 乘 和 时 间 的 模 据 ， 而 不 是 
在 做 这 些 事情 同时 来 决定 通过 哪个 门 到 出 租车 站 ， 就 会 更 简单 些 。 
© 交易 Agent 的 状态 空间 对 于 个 体 状态 推理 来 说 太 大 了 。 还 存在 太 多 的 个 体 ， 因 而 
无 法 用 特征 的 方式 进行 推理 。 交 易 Agent 不 得 不 按照 如 顾客 、 天 数 、 宾 馆 、 航 班 
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等 这 样 的 个 体 进 行 推理 。 

。 交易 Agent 一 般 不 会 只 进行 一 次 购物 ， 通 常会 进行 一 个 序列 的 购物 ， 会 有 大 量 的 
序列 决策 (例如 ， 预 订 宾馆 客房 可 能 会 需要 预订 陆地 交通 ， 然 后 是 存储 包 衷 )， 通 
常会 为 持续 的 采购 制定 计划 ， 例 如 Agent 必须 确保 家 里 一 直 会 有 足够 的 食物 。 

。 感知 不 确定 性 ， 因 为 交易 Agent 不 会 知道 所 有 的 可 用 选择 以 及 它们 的 可 用 性 ， 但 
是 必须 找 出 那些 很 快 会 过 时 的 信息 (例如 ， 是 否 有 宾馆 会 被 预订 一 空 )。 旅 行 Agent 
不 会 知道 一 个 航班 是 否 会 被 取消 或 延迟 、 旅 客 的 行李 是 否 会 丢失 等 信息 。 这 种 不 
确定 性 意味 着 Agent 必须 为 意料 之 外 的 事情 做 计划 。 

。 效用 不 确定 性 ， 因 为 Agent 不 知道 一 次 尝试 性 的 购物 会 不 会 成 功 。 

。 复杂 的 偏好 是 交易 Agent 的 核心 部 分 。 主 要 问题 是 允许 用 户 描述 他 想 要 的 东西 。 
用 户 的 偏好 一 般 是 功能 描述 ， 而 不 是 部 件 描述 。 例 如 ， 典 型 的 计算 机 买主 一 般 不 
知道 要 买 什么 样 的 硬件 ， 但 是 知道 他 们 需要 什么 样 的 功能 ， 以 及 能 够 使 用 那些 也 
许 还 不 存在 的 新 特性 的 灵活 性 。 类 似 的 ， 在 旅游 领域 ， 用 户 想 要 什么 样 的 活动 依 
赖 于 具体 的 地 理 位 置 。 即 使 他 们 可 能 根本 不 知道 这 些 风 俗 是 什么 ， 用 户 也 可 能 想 
在 目的 地 参加 当地 的 风俗 活动 。 

。 交易 Agent 必须 对 其 他 的 Agent 进行 推理 。 在 贸易 中 ， 价 格 由 供需 关系 决定 ; 这 
就 意味 着 对 其 他 竞争 性 Agent 进行 推理 是 重要 的 ， 比 如 在 很 多 物品 通过 拍卖 进行 
出 售 的 世界 中 。 当 物品 必须 互补 时 ， 推 理 变 得 很 困难 ， 如 航班 与 宾馆 预订 ， 还 有 
可 以 相互 取代 的 物品 ， 比 如 公共 汽车 或 出 租车 。 

。 交易 Agent 应 该 了 解 一 些 信息 ， 例 如 ， 什 么 物品 卖 得 比较 快 ， 哪 个 供应 商 可 靠 ， 
在 哪里 能 有 比较 划算 的 交易 ， 会 有 什么 意料 之 外 的 事 发 生 等 。 

。 交易 Agent 面临 严峻 的 通信 局 限 性 。 当 发 现 物品 可 用 并 与 其 他 物品 协调 时 ， 物 品 
可 能 已 经 卖 完了 。 这 种 情况 会 在 卖家 同意 保有 某 些 物品 (同时 不 会 卖 给 别人 ) 时 有 
所 缓解 ， 但 卖家 不 可 能 在 别人 也 想 买 的 时 候 长 时 间 持 有 这 些 物品 。 

由 于 交易 Agent 的 个 性 化 本 质 ， 它 应 该 会 比 通用 购买 者 做 得 更 好 些 ， 比 如 ， 只 提供 套 

装 旅游 。 


1.7 本 书 概 述 


本 书 的 余下 部 分 对 由 复杂 性 维度 所 定义 的 设计 空间 进行 探索 ， 对 每 个 维度 进行 独立 的 
合理 考虑 。 

第 2 章 主要 分 析 图 1-3 中 所 提 到 的 黑 盒 的 内 部 结构 ， 并 讨论 Agent 的 模块 及 层次 
分 解 。 

第 3 章 主要 讨论 决策 未 来 行为 的 最 简单 情况 ， 单 个 Agent 用 显 式 状 态 推理 ， 没 有 不 确 
定性 ， 有 要 完成 的 目标 ， 但 是 存在 不 确定 期 。 在 这 种 情况 下 ， 解 决 目 标 这 个 问题 可 以 抽象 
成 图 中 的 路 径 搜索 问题 ， 并 介绍 了 如 何 利用 本 领域 的 额外 知识 进行 搜索 。 

第 4、5 章 主要 介绍 如 何 利用 特征 。 具 体 地 说 ,第 4 章 主要 考虑 怎样 在 给 定 的 约束 条 
件 下 找到 可 能 的 状态 ， 这 个 约束 是 以 变量 形式 表示 的 特征 的 值 的 配置 。 第 5 章 阐 述 在 所 有 
状态 都 满足 给 定 的 约束 集 时 ， 如 何 确定 命题 是 否 为 真 。 

第 6 章 主要 讲述 如 何 用 不 确定 性 进行 推理 。 

第 7 章 介 绍 如 何 从 先前 经 验 及 数据 中 学 习 。 它 包括 学 习 中 最 常见 的 情况 ， 即 利用 特征 
的 监督 学 习 ， 从 中 可 以 学 到 被 观察 目标 的 特征 集合 。 
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第 8 章 考 虑 规划 问题 ， 具 体 对 状态 及 动作 的 基于 特征 的 表达 进行 表示 与 推理 。 第 9 章 
介绍 不 确定 性 中 的 规划 问题 ， 第 10 章 将 这 种 状况 扩展 至 多 个 Agent。 

第 11 章 介 绍 不 确定 性 下 的 学 习 及 强化 学 习 。 

第 12 章 介绍 如 何 用 个 体 及 关系 进行 推理 ; 第 13 章 主 要 讨论 的 是 本 体 ， 以 及 如 何 建 立 
基于 知识 的 系统 ; 第 14 章 说 明 个 体 及 关系 的 推理 如 何 与 规划 、 学 习 及 概率 推理 相 结合 。 

第 15 章 回顾 人 工 智 能 的 设计 空间 并 说 明 本 书 提供 的 材料 如 何 适应 设计 空间 。 同 时 也 
介绍 一 些 关 于 建立 智能 系统 的 伦理 思考 。 


1.8 本 章 小 结 


© 人 工 智能 是 对 智能 行动 的 计算 Agent 的 研究 。 

© Agent 在 环境 中 动作 ， 它 只 能 访问 自己 的 先 验 知识 、 历 史 观 察 值 、 目 标 及 偏好 。 

e Agent 是 一 个 通过 操纵 符号 来 决定 要 做 什么 的 物理 符号 系统 。 

。 Agent 的 设计 者 应 该 考虑 模块 性 、 如 何 描述 这 个 世界 、 向 前 计划 多 远 、 感 知 和 行为 效果 的 不 确定 
性 、 目 标 或 偏好 的 结构 、 其 他 的 Agent、 如 何 从 经 验 中 学 习 和 所 有 真实 Agent 都 只 有 有 限 的 计算 
资源 的 事实 。 

。 为 了 通过 计算 机 解决 问题 ， 计 算 机 必须 具有 有 效 的 表达 方式 以 便于 推理 。 

。 为 了 知道 什么 时 候 已 经 解决 了 问题 ，Agent 必须 对 适当 解 的 构成 做 一 个 定义 ， 例 如 ， 是 否 它 必 须 
最 优 ， 或 近似 最 优 ， 或 几乎 总 是 最 优 ， 或 者 一 个 可 满足 解 是 否 适当 。 

。 在 选择 表示 法 时 ， 应 该 用 那 种 尽 可 能 接近 问题 的 表示 法 ， 这 样 就 可 以 很 容易 地 确定 所 表示 的 内 
容 ， 检 查 它 的 正确 性 并 能 够 维护 。 通 常用 户 都 会 想 要 一 个 解释 ， 为 什么 他 们 应 该 相信 答案 。 


1.9 参考 文献 及 进一步 阅读 


本 章 思想 来 源 于 很 多 资料 。 在 这 里 ,我 们 向 那些 有 贡献 的 作者 致 以 诚 丽 谢意 。 而 其 他 的 大 部 分 想法 
来 自 民 间 人 工 智能 方面 的 研究 ， 我 们 无 法 将 贡献 仅 归 功 于 任何 人 。 

HaugelandL1997] 有 一 批 关 于 人 工 智 能 哲学 基础 的 论文 ， 其 中 就 包括 提出 图 灵 测 试 的 Turing[1950] 的 
经 典 论文 。Cohen[L2005] 对 图 灵 测 试 做 了 最 新 讨论 

Nilsson[2009] 对 人 工 智 能 的 历史 作 了 详细 描述 。Chrisley 和 Begeer[2000] 发 表 了 很 多 关于 人 工 智能 
的 经 典 文章 。 i : 

物理 符号 系统 假说 是 由 Newell 和 Simon[1976] 提 出 来 的 。 参 考 Simnon[1996]， 他 讨论 的 是 在 多 学 科 
背景 下 符号 系统 的 作用 。Haugeland[1985] 讨 论 了 自然 智能 、 合 成 智能 与 人 工 智 能 的 区 别 ， 也 给 出 了 在 解 
释 型 自动 形式 符号 系统 以 及 Church-Turing 理论 等 方面 有 用 的 介绍 材料 。Brooks[1990] 和 Winograd 
[1990] 对 符号 系统 假说 做 了 批判 。Nilsson[2007] 利 用 最 近 的 一 些 评论 对 这 个 假说 做 了 评价 。 

任意 时 间 算 法 的 使 用 应 该 归功 于 Horvitz[1989]、Boddy 和 Dean[1994]。Dean 和 Wellman[1991， 第 
8 È], Zilberstein[ 1996 ] 和 RussellL1997] 对 有 限 理性 做 了 介绍 。 

Kirsh[1991a]、Bobrow[1993] 讨 论 了 人 工 智能 的 基础 以 及 人 工 智能 的 研究 范围 ， 还 有 相应 卷 中 的 论 
文 ， 以 及 Sehank[1990] 与 Simon[1995]。Lenat 和 Feigenbaum[1991] 与 Smith[1991] 讨 论 了 人 工 智 能 中 知 
识 的 重要 性 。 

Gardner[ 1985 ]、Posner[1989 ]、Stillings、Feinstein、Garfield、Rissland、Rosenbaum、Weisler 和 
Baker-Ward[1987] 对 认 知 科学 做 了 概述 ,: 阐述 了 人 工 智能 以 及 其 他 一 些 学 科 在 这 个 领域 中 扮演 的 角色 。 
购物 Agent 能 够 变 得 非常 复杂 。Sandholm[2007] 描 述 了 Agent 如 何 用 复杂 偏好 采购 多 种 产品 。 

对 于 本 书 来 说 ,很 多 人 工 智能 课本 很 有 价值 ， 可 以 作为 参考 书目 成 为 本 书 的 补充 ,为 人 工 智 能 提供 
了 不 同 的 视角 。 尤 其 是 Russell 和 Norvig[2010] 给 出 了 一 个 更 为 广泛 的 人 工 智 能 概述 ， 并 为 本 书 中 的 很 多 
主题 提供 了 补充 资料 ， 他 们 提供 了 科技 文献 的 一 个 优秀 评述 ， 对 此 本 书 不 打算 重复 。 

人 工 智能 百科 全 书 [Shapiro，1992] 是 由 本 领域 的 领军 人 物 编写 的 关于 人 工 智能 的 百科 词典 ， 为 一 些 
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经 典 主题 提供 了 背景 ， 其 中 也 收藏 了 大 量 经 典 研究 论文 。 本 书 读 者 最 感 兴趣 的 一 般 馆 藏 是 Webber 和 
Nilsson[1981]4j Brachman 和 Levesque[1985]， 更 多 专业 馆藏 会 在 相应 的 章节 中 给 出 。 

国际 人 工 智能 促进 协会 (AAAI， 其 前 身 是 美国 人 工 智 能 协会 ) 通 过 他 们 的 AI 主题 网 站 (http:// 
www. aaai. org/ AITopics/html/welcome, html) 提 供 了 很 多 基础 资料 与 新 闻 。 由 AAAI 出 版 的 (AI 杂志) 有 有 
很 多 优秀 的 概述 性 文章 以 及 特定 应 用 领域 的 描述 。IEEE 智能 系统 期 刊 (IEEE Intelligent Systems) 也 提供 
了 很 多 关于 人 工 智能 研究 方面 的 可 获取 的 文章 。 

有 很 多 学 术 期 刊 提供 了 更 深入 的 研究 ， 还 有 一 些 能 够 提供 最 新 研究 的 会 议 。 这 些 期 刊 包括 《人 工 智 
fE )C Artificial Intelligence), LA TE BEWA Journal of Artificial Intelligence Research), {IEEE 模式 分 析 
与 机 器 智 能 会 刊 )(IEEE Transactions on Pattern Analysis and Machine Intelligence) 和 《计算 智能 》CCompu- 
tational Intelligence) ， 还 有 一 些 专业 期 刊 ， 如 《神经 计算 )(Neural Computation), (+ ia a )(Computa- 
tional Linguistics)、《 机 器 学 习 》(Machine Learning)、《 自 动 推理 》(Journal of Automated Reasoning), (if 
似 推 理 》(Journal of Approximate Reasoning)、《IEEBE 机 器 人 与 自动 化 会 刊 XIEEE Transactions on Robot- 
ics and Automation) #l (i238 4a @ 1) it 45 XR) (Theory and Practice of Logic Programming). KA BHF 
研究 首先 出 现在 会 议 上 。 一 般 人 最 感 兴趣 的 是 两 年 一 度 的 人 工 智 能 国际 联合 大 会 (UJCAID) AAAI 年 会 、 
欧洲 人 工 智 能 会 议 (ECAD 、 泛 太平 洋人 工 智 能 国际 会 议 (PRICAI) 、 各 种 各 样 的 国家 级 会 议 ， 以 及 很 多 
专业 会 议 及 研讨 会 。 


1.10 习题 


1.1 为 下 面 每 一 项 给 出 5 TRA: 
(a) 一 条 狗 比 一 只 蠕虫 更 为 智能 。 
b) 一 个 人 上 比 一 条 狗 更 智能 。 
Cc) 一 个 组 织 比 单个 的 人 更 智能 。 
基于 上 述 讨论 ， 给 出 “更 智能 ”的 含义 。 
1.2 尽 可 能 多 地 举 出 一 些 研 究 某 种 智能 行为 的 学 科 。 找 出 研究 的 是 智能 行为 的 哪 一 方面 ， 用 什么 工具 来 
研究 的 。 尽 可 能 广泛 地 去 理解 有 关 智 能 行为 的 定义 。 
1.3 说 出 AI 的 两 种 应 用 (不 是 应 用 类 别 ， 是 具体 的 应 用 )， 每 个 应 用 最 多 用 一 页 文字 来 描述 。 你 可 以 从 
以 下 几 个 间 题 考虑 : 
(a) 应 用 具体 是 做 什么 的 (如 控制 一 台 航 天 器 ， 诊 断 一 台 复 印 机 ， 为 计算 机 用 户 提供 智能 帮助 )? 
(b) 使 用 了 什么 人 工 智 能 技术 (如 基于 模型 的 诊断 ， 信 念 网 络 ， 语 义 网 络 ， 启 发 式 搜索 ,约束 满 
E)? 
(c) 它 的 表现 如 何 ? (如 根据 作者 还 是 独立 的 评论 者 ? 它 跟 人 类 相 比 怎么 样 ? 作者 怎么 知道 它 的 表 
现 怎么 样 ?) 
(d) 它 是 个 实验 系统 还 是 装备 系统 ?《〈 它 有 多 少 用 户 ? 这 些 用 户 需 要 什么 样 的 专业 知识 ?) 
(e) 它 为 什么 是 智能 的 ? 什么 方面 使 它 成 为 了 一 个 智能 系统 ? 
D [可 选 ] 使 用 什么 编程 语言 及 环境 完成 的 ? 使 用 哪 种 用 户 界面 ? 
(g) 参考 文献 : 你 从 哪里 得 到 关于 这 个 应 用 的 信息 ? 其 他 人 应 该 到 什么 样 的 书 中 、 文 章 中 或 网 站 上 
去 了 解 这 个 应 用 ? 
1.4 选择 本 书 中 没有 涉及 的 4 对 维度 。 对 于 每 一 对 , 试 给 出 一 个 维度 交互 的 常识 性 例子 ，。 
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Agent 体系 结构 和 分 层 控制 





所 谓 分 层 或 分 技 系 统 ， 是 指 一 个 系统 由 多 个 相互 关联 的 子 系 统 组 成 ， 而 每 个 子 系统 又 
可 再 次 分 层 直 至 到 达 最 底层 基本 子 系 统 为 止 。 自 然 界 的 大 部 分 系统 中 ， 何 时 停止 分 层 及 什 
么 是 基本 元 素 的 随意 性 极 大 。 物 理学 中 会 经 常 使 用 基本 粒子 的 概念 ， 但 是 粒子 早已 证 实 不 
是 物质 的 最 底层 基本 元 素 。 

我 们 从 实验 观察 到 自然 中 的 大 部 分 复杂 系统 都 展示 出 分 层 结构 。 从 理论 上 讲 ， 我 们 希 
望 世界 上 的 复杂 系统 都 具备 分 层 结构 ， 其 复杂 系统 可 从 简章 系统 演变 而 来 。 
Herbert A. Simon[1996 ] 





本 章 主要 讨论 智能 Agent 在 实时 环境 中 如 何 感 知 、 推 理 和 动作 。 实 际 上 ， 这 涉及 
Agent 的 内 部 结构 。 正 如 上 面 西蒙 所 指出 的 ， 层 次 分 解 是 复杂 系统 (如 智能 Agent) it 
的 重要 部 分 。 因 此 本 章 主 要 描述 了 用 层次 分 解 方式 设计 智能 Agent 的 方法 、 构 建 智能 
Agent 的 方法 以 及 构建 “智能 ?所 需 的 知识 。 


2.1 Agent 


Agent 是 指 在 具体 环境 中 具有 动作 能 力 的 对 象 ， 如 一 个 人 、 一 个 机 器 人 、 一 条 狗 、 一 
只 小 虫子 、 一 阵风 、 重 力 、 一 者 灯 或 者 一 个 能 购物 和 售 货 的 计算 机 程序 。 

有 意图 的 Agent 是 具有 偏好 的 ， 它 会 偏爱 于 某 些 环境 状态 ， 并 将 采取 行动 来 达到 它们 
最 偏好 的 状态 。 无 意图 的 Agent 则 会 聚集 在 一 起 并 被 称 为 自然 。 建 模 时 需 设 定 一 个 Agent 
是 否 为 有 意图 Agent， 此 建 模 假定 是 否 合适 要 根据 环境 来 定 ， 如 在 一 些 情 境 中 ， 需 要 将 某 
条 狗 定 义 为 有 意图 的 ， 而 有 时 候 则 不 需要 。 

如 果 一 个 Agent 不 具有 偏好 ， 由 定义 可 知 它 不 会 关心 其 所 处 的 环境 状况 ， 因 此 也 不 会 
关心 自己 做 什么 。 设 计 此 类 Agent 的 唯一 目的 是 逐步 培养 其 偏好 ， 使 其 更 偏爱 某 种 环境 状 
态 并 尽力 实现 之 。Agent 并 非 必须 知道 自己 的 偏好 ， 如 一 个 恒温 器 ， 它 只 需 感知 环境 ， 并 
控制 加 热 器 开 和 关 即 可 。 它 嵌入 了 偏好 ， 即 让 房间 中 的 大 员 处 在 一 个 合适 的 温度 中 ， 尽 管 
它 并 不 知道 自己 具有 此 偏好 。Agent 的 偏好 一 般 是 Agent 设计 者 的 偏好 ， 但 是 有 时 在 
Agent 运 行 中 也 可 赋予 目标 和 偏好 。 

Agent 需要 一 个 “主体 ”来 与 环境 进行 交互 。 一 个 贱 入 式 的 Agent 有 一 个 物理 的 主体 。 
机 器 人 就 是 一 个 人 造 的 具有 目的 性 的 嵌入 式 Agent。 有 些 Agent 则 仅 在 信息 空间 存在 ， 也 
被 称 为 机 器 人 ， 这 里 我 们 说 的 Agent 指 的 便 是 此 类 。 

本 章 讨 论 了 如 何 构建 有 意图 的 Agent， 我 们 用 机 器 人 作为 主要 的 实例 ， 因 为 机 器 人 学 
科 中 已 有 相当 多 的 研究 ， 且 许多 术语 来 自 于 机 器 人 学 科 。 当 然 ， 此 讨论 适用 于 所 有 Agent。 

Agent 通过 传感器 来 接收 信息 。 一 个 Agent 的 动作 取决 于 通过 传感器 获取 的 信息 。 这 
些 传 感 器 有 可 能 反映 环境 的 真实 状态 。 传 感 咒 可 能 是 有 噪声 的 、 不 可 靠 的 、 坏 掉 的 ， 甚 至 
有 时 传感器 是 可 靠 的 ， 但 是 它 传 回 的 关于 环境 的 信息 却 是 模棱两可 的 ， 而 Agent 却 必须 依 
靠 其 获取 的 信息 来 行动 。 这 些 信息 经 常 很 弱 ， 例 如 ， 传 感 器 s 看 上 去 会 生成 数值 vo 
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Agent 通过 它们 的 执行 器 (也 叫 effectors) 来 动作 。 执 行 器 同样 可 能 是 有 了 噪声 的 、 不 可 
靠 的 、 行 动 缓慢 的 或 者 坏 掉 的 。Agent 所 控制 的 是 其 发 送 给 执行 器 的 信息 (命令 )。Agent 
经 常会 采取 行动 去 寻找 更 多 的 环境 信息 ， 如 打开 橱柜 门 查看 物件 或 者 对 学 生 进 行 测试 来 测 
定 他 们 的 知识 。 


2.2 Agent 系统 


图 2-1 展示 了 Agent 与 环境 的 一 般 交 互 过 程 ， 该 图 所 示 
整体 即 是 我 们 所 说 的 Agent 系统 。 

一 个 Agent 系统 是 由 Agent 和 其 所 在 环境 构成 。Agent 
接收 环境 中 的 刺激 ， 然 后 做 出 相应 动作 。 

一 个 Agent 由 主体 (body) 和 控制 器 (controller) 两 部 分 
组 成 。 控 制 器 从 主体 处 接收 感知 ， 然 后 将 命令 送 至 主体 处 。 图 2-1 一 个 Agent 系统 及 

_ 主体 包括 传感器 和 执行 器 ， 传 感 器 将 外 部 刺激 转化 为 感 其 构成 部 分 
知 ， 热 行 器 能 将 命令 转换 成 动作 。 

刺激 包括 光 、 声 音 、 键 盘 上 输入 的 单词 、 鼠 标 移 动 或 者 物理 冲击 ， 也 包括 从 网 页 或 者 
数据 库 中 获取 的 信息 。 

常见 的 传感器 包括 触摸 传感器 、 相 机 、 红 外 传感器 、 声 呐 、 麦 克 风 、 键 盘 、 鼠 标 或 者 
通过 网 页 来 抽取 信息 的 XML 阅读 器 。 作 为 原型 传感器 ， 相 机 感知 进入 它 的 光束 ， 将 其 转 
换 成 亮度 数值 的 二 维 数组 ， 称 为 像素 。 有 时 会 使 用 多 维 像素 数组 来 表示 不 同 的 颜色 或 者 满 
足 多 镜头 相机 的 需求 。 这 些 像素 数组 可 被 控制 器 感知 。 而 更 多 的 时 候 ， 感 知 对 象 通常 有 着 
更 高 层 的 特征 ， 如 线 、 边 或 次 层次 的 信息 。 通 常 来 说 ， 接 收 的 都 是 特定 信息 ， 如 明亮 的 橙 
色 圆 点 的 位 置 ， 学 生 关 注 的 演出 部 分 或 者 人 们 打出 的 手势 信息 。 

动作 一 般 包 括 转向 、 加 速 、 移 动 关 节 、 讲 话 、 展 示 信 息 或 者 向 某 一 网 址 发 送 邮 件 的 命 
令 。 命 令 又 包括 低级 命令 (如 将 发 动机 的 电压 设 定 为 某 个 数值 ) 和 高 级 命令 (如 令 一 个 机 器 
人 进行 某 些 运动 ， 例 如 "停止 ",“ 以 1m/s 的 速度 向 正 东 方向 运动 ”或 者 "到 103 房间 去 ”)。 
执行 器 同 传感器 类 似 ， 都 包含 噪声 。 例如， 停止 是 需要 时 间 的 ; 机 器 人 在 物理 规则 下 运 
动 ， 所 以 具备 动量 ， 且 信息 传递 需要 时 间 。 机 器 人 也 许 最 终 只 是 以 接近 lm/s 的 速度 运动 ， 
接近 正 东 方向 ， 且 速度 和 方向 都 是 不 断 波动 的 ， 甚 至 运动 到 某 一 指定 房间 的 行为 可 能 会 由 
于 各 种 原因 而 失败 。 

控制 器 是 Agent 的 大 脑 ， 本 章 的 剩余 部 分 将 主要 讨论 如 何 构 建 一 个 控制 器 。 


Agent 的 功能 


Agent 应 构建 为 实时 性 的 : 应 能 即时 接收 传感器 信息 ， 并 即时 做 出 反应 。 特 定时 刻 的 
Agent 动作 是 其 输入 的 函数 。 我 们 首先 考虑 时 间 的 概念 。 

BL T 为 时 间 点 集合 ， 假 定 个 有 序 ， 且 任意 两 个 时 间 点 的 时 序 距离 均 可 测定 。 大 体 上 ， 
我 们 设 定 可 以 映射 到 实 线 上 的 一 些 子 集 。 | 

若 任意 两 个 时 间 点 间 仅 存在 有 限 个 时 间 点 ， 则 称 工 是 离散 的 ， 如 每 一 天 或 1/100 秒 有 
一 个 时 间 点 ,或 者 有 趣事 件 发 生 的 时 刻 也 可 以 是 时 间 点 。 但 如 果 工 中 任意 两 个 时 间 点 间 都 
存在 另 一 个 时 间 点 ， 则 认为 工 是 稠密 的 ， 这 表明 T 中 的 任意 两 个 时 间 点 间 存 在 无 限 多 个 
时 间 点 。 离 散 时 间 存 在 如 下 特征 : 除了 最 后 时 间 点 ， 其 他 任何 时 间 点 均 存 在 下 一 时 间 点 。 
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而 稠密 时 间 则 无 “下 一 时 间 点 ”。 我 们 将 时 间 初 始 化 为 离散 的 ， 且 没有 尽头 。 因 此 每 个 时 间 
点 都 存在 下 一 时 间 点 。 我 们 令 t 十 1 为 时 间 点 t 的 下 一 时 间 点 ， 但 这 并 不 代表 时 间 点 之 间 是 
等 间隔 的 。 

假定 了 有 初始 时 间 点 ， 我 们 这 里 称 其 为 0。 

假定 已 为 所 有 可 能 感知 对 象 的 集合 。 一 个 感知 轨迹 或 者 一 个 感知 流 则 为 一 个 从 工 到 
P 的 函数 ， 它 描述 了 每 一 时 间 点 所 观察 到 的 事物 。 

假定 C 是 所 有 命令 的 集合 。 一 个 命令 
轨迹 为 从 工 到 C 的 函数 ， 其 代表 在 每 个 时 
间 点 的 命令 。 

【 例 2-1) 我 们 来 考虑 一 个 家 居 交 易 
Agent， 它 监控 着 多 种 家 居 用 品 价格 (如 它 
监视 着 某 些 特定 交易 ， 并 记录 卫生 纸 的 涨 
价 情况 ) 及 家 中 相应 存量 。 它 必须 决定 是 
否 购 进 某 物 及 在 何 种 价格 时 购 进 。 感 知 对 
象 为 当前 商品 价格 及 家 中 存量 。 命 令 为 
Agent 决定 购买 的 各 类 商品 的 数量 ( 若 不 购 
进 则 数目 为 0) 。 感 知 轨迹 描述 了 每 个 时 间 
点 (如 每 天 ) 的 商品 价格 和 库存 数量 ， 如 
图 2-2 所 示 。 命 令 轨 迹 描 述 每 个 时 间 点 
Agent 购 进 的 商品 数量 ， 如 图 2-3 所 示 。 

实际 购 入 动作 依赖 于 命令 ,但 有 可 能 
有 所 不 同 。 如 Agent 发 出 一 条 以 某 一 特定 
价格 购 入 12 卷 (1 打 ) 卫 生 纸 的 命令 ， 但 并 
不 意味 着 Agent 实际 购 入 了 12 卷 卫生 纸 ， 
因为 可 能 由 于 网 络 通信 问题 ， 仓 库 中 的 卫 
生 纸 已 卖 完 ， 或 者 在 决定 买 和 实际 买 之 间 
时 价格 已 经 发 生变 动 。 < 

一 个 Agent 的 感知 轨迹 是 控制 器 在 过 。 bt 
去 、 现 在 和 将 来 接收 到 的 所 有 感知 信息 的 = wa 
序列 。 命 令 轨迹 则 是 控制 器 在 过 去 、 现 在 
和 将 来 发 出 的 所 有 命令 信息 的 序列 。 命 令 
可 以 是 历史 感知 的 函数 。 这 就 产生 了 转换 的 概念 ， 从 感知 轨迹 映射 到 命令 轨迹 的 函数 。 

因为 所 有 的 Agent 都 处 于 时 间 流 中 ， 所 以 Agent 不 能 真正 地 观察 到 全 部 感知 序列 ; 在 
任意 时 刻 ， 它 只 能 观察 到 截至 现在 的 感知 轨迹 。 在 2 T) 时 刻 只 能 观察 到 时 刻 及 其 之 
前 的 信息 流 。 其 命令 只 能 根据 其 经 验 来 决定 。 

转换 过 程 是 有 因果 联系 的 ， 如 果 对 于 所 有 时 刻 :， 在 t 时 间 的 命令 都 仅 由 t 和 其 之 前 的 
感知 信息 决定 。 因 果 限 制 是 必需 的 ， 因 为 Agent 处 于 时 间 流 中 ， 所 以 + 时 刻 的 命令 不 可 能 
依靠 上 之 后 的 感知 信息 。 

控制 器 完成 因果 转换 的 具体 实现 。 

Agent 在 时 间 ¢ 的 历史 包括 其 在 t 时 刻 和 之 前 的 感知 流 和 在 t 时 刻 和 之 前 的 命令 流 。 

因此 ， 一 个 因果 转换 可 看 做 是 从 Agent 在 上 时 刻 的 历史 到 其 在 上 时刻 发 出 的 命令 的 函 





图 2-3 fil 2-1 的 命令 轨迹 
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数 。 这 可 被 认为 是 Agent 的 最 规范 描述 。 

LB 2-2) 继续 例 2-1 的 情况 ， 一 个 因果 转换 可 认为 ， 对 于 任意 时 刻 ，Agent 需要 购 
买 多 少 日 用 品 取 决 于 历史 价格 、 历 史 库 存量 (包括 时 下 价格 和 现 有 上 库存) 及 过 往 购 买 
历史 。 

因果 转换 的 示例 如 下 : 当 库 存量 低 于 5 打 且 价格 低 于 过 去 20 天 的 平均 价格 的 90%% 时 
则 购买 4 打 ; 车 库存 量 低 于 1 打 时 购 进 1 打 ; 其 他 情况 下 不 购 进 。 < 

尽管 因果 转换 是 用 户 历史 的 函数 ， 但 其 不 能 直接 实现 ， 因 为 Agent 不 能 直接 获得 它们 
的 全 部 历史 信息 ， 它 只 能 获得 当前 的 感知 信息 和 它 仍 能 记 住 的 信息 。 

一 个 Agent 在 时 间 i 时 的 信念 状态 是 其 所 能 记 住 的 所 有 以 前 时 间 的 信息 的 总 和 。 
Agent 只 能 获取 其 存在 信念 状态 中 的 历史 。 因 此 信念 状态 蕴含 了 其 现在 和 将 来 命令 所 能 用 
到 的 所 有 历史 信息 。 在 任何 时 间 ，Agent 都 能 访问 其 信念 状态 和 感知 信息 。 s 

信念 状态 可 以 包含 任何 信息 ， 仅 受制 于 其 存储 器 大 小 和 处 理 能 力 限 制 。 这 是 信念 的 一 
个 非常 普通 的 定义 ; 有 时 我 们 会 使 用 信念 的 一 个 更 特别 的 定义 ， 如 Agent 的 信念 是 关于 世 
界 上 哪些 为 真 ， 或 是 关于 环境 的 动态 改变 ， 或 是 关于 其 在 未 来 会 做 什么 。 

一 些 信 和 念 状态 的 实例 如 下 所 示 : 

。 有 固定 顺序 指令 队列 的 Agent 的 信念 状态 可 能 是 一 个 程序 计数 器 ， 记 录 着 该 序列 

的 当前 位 置 。 

。 信念 状态 可 能 包含 有 用 的 特定 事实 ， 例 如 ， 传 送 机 器 人 在 何 处 放下 包 囊 去 找 钥匙 ， 
或 者 它 找 钥 匙 时 已 经 去 过 的 地 方 ， 记 住 任何 当前 无 法 立即 观察 却 相 对 稳定 的 信息 
对 Agent 是 有 用 的 。 

。 信念 状态 可 以 编码 成 一 个 模型 或 者 整个 世界 状态 的 部 分 模型 。Agent 可 以 保留 其 
对 于 当前 世界 状态 的 最 佳 猜 测 ， 也 可 以 是 可 能 世界 状态 的 一 个 概率 分 布 ， 详 情 内 
容 见 5.6 节 和 第 6 章 。 

。 信念 状态 可 以 是 世界 的 动态 表示 、 感 知 的 意义 ，Agent 可 以 使 用 其 感知 来 判断 世 
界 中 什么 是 正确 的 。 

。 信念 状态 可 以 编码 为 Agent 的 愿望 、 它 需 实现 的 目标 、 它 关于 世界 的 信念 、 它 的 
意图 或 者 为 了 实现 目标 而 准备 实施 的 步骤 。 当 Agent 行动 和 观察 世界 时 ， 这些 能 
被 维持 ， 例 如 ， 移 除 已 经 达成 的 目标 或 当 发 现 更 适合 的 步骤 时 改变 意图 。 

控制 器 必须 保存 Agent 的 信念 状态 并 决定 每 个 时 刻 发 出 何 种 命令 。 当 它 做 这 些 时 ， 它 
应 该 获得 的 信息 需 包 括 自 身 信念 状态 和 当前 感知 。 

离散 时 间 下 的 信念 状态 转换 函数 可 表示 为 

remember;S* PS 
其 中 ，S 是 信念 状态 集 ，P 是 可 能 认 知 的 集合 ; s =remember(s,, ~) RARE sm EE 
信念 状态 s 之 后 观察 到 p, 得 出 的 信念 状态 。 

指令 函数 可 表示 为 

do:SX P+C 
其 中 ，S 是 信念 状态 集 ，P 是 可 能 认 知 的 集合 ，C 是 可 能 指令 的 集合 i c.—dols, HIRR 
当前 的 信念 状态 为 s;:， 观 察 到 p, 时 控制 器 需要 发 出 的 指令 c, 。 

信念 状态 转换 函数 和 指令 函数 一 起 描述 了 Agent 的 因果 转换 过 程 。 可 以 发 现 ， 因 果 转 
HE Agent 历史 的 函数 ，Agent 不 必 访 问 历 史 ， 但 指令 函数 是 Agent fA KAS AVA AY 
数 ， 这 两 个 是 Agent 必须 要 访问 的 。 
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【 例 2-3】 为 了 实现 例 2-2 中 的 因果 转换 ， 控制 器 必须 跟踪 过 去 20 天 内 的 价格 。 通 过 
使 用 均值 (ave) 的 跟踪 数值 ， 可 以 更 新 均值 

ave =avet (new—old)/20 
其 中 ，new BR MHA. old 指 记 住 的 最 早 时 刻 的 价格 ， 它 在 使 用 后 立即 会 被 丢弃 。 
其 中 最 初 20 天 的 数据 将 会 做 一 些 特 殊 处 理 。 

为 了 使 控制 器 更 加 简单 ， 其 不 需 记 忆 过 去 20 天 的 历史 来 获取 平均 值 ， 而 改 为 仅 存 储 
平均 值 ， 并 使 用 平均 值 来 蔡 代 最 早 价格 。 信 念 状态 便 仅 包含 一 个 数据 Cavze)。 更 新 平均 值 
的 状态 转换 函数 为 

ave *=ave+(new—ave)/20 

这 个 控制 器 很 容易 实现 ， 对 于 在 过 去 20 个 时 间 单 位 之 前 发 生 的 变化 不 敏感 。 这 种 保 
留 平均 估计 值 的 方法 是 强化 学 习 中 的 时 间 差 分 法 的 基础 。 < 

如 果 仅 存在 有 限 的 可 能 信念 状态 ,控制 器 可 被 称 为 有 限 状态 控制 器 或 者 有 限 状 态 机 。 
因素 化 表达 是 指 信念 状态 、 感 知 和 命令 均 由 特征 来 定义 。 如 果 存 在 有 限 特征 ， 且 每 个 特征 
仅 存在 有 限 种 可 能 的 取 值 ， 那 控制 器 就 是 一 个 因素 化 有 限 状 态 机 。 更 全 面 的 控制 器 可 以 采 
用 无 限 数量 的 特征 或 特征 取 值 来 构建 。 一 个 有 可 数 状态 的 控制 器 可 以 计算 任何 图 灵机 可 计 
算 的 问题 。 


2.3 分 层 控制 


在 图 2-1 中 讲述 的 一 种 构建 Agent 的 方法 是 将 主体 分 为 两 部 分 : 传感器 和 一 个 复杂 的 
感知 系统 ， 感 知 系统 将 对 世界 的 描述 输入 给 推理 引擎 来 实现 控制 器 ， 然 后 能 够 生成 传 给 执 
行 器 的 命令 。 但 这 对 智能 系统 而 言 是 一 
个 很 差 的 结构 ， 因 为 它 太 慢 了 ， 使 得 其 
很 难 缓解 以 下 两 个 矛盾 : 复杂 问题 的 组 
慢 推 理 和 Agent 所 需 的 高 级 目标 的 快速 
反应 ， 例 如 ， 躲 避 障 得 。 它 也 不 清楚 ， 
在 其 可 操纵 范围 之 外 存在 一 个 独立 的 世 
界 ( 见 习题 2.1). 

另 一 种 可 行 结构 是 在 图 2-4 中 描述 
的 控制 器 的 分 层 。 每 一 层 都 将 其 下 层 看 
做 一 个 可 从 中 获取 感知 及 送出 命令 的 虚 
拟 主 体 。 越 低层 ， 反 应 速度 越 快 ， 用 于 
那些 需要 快速 反应 的 情况 ， 且 能 将 对 环 
境 更 简单 直 自 的 感知 传 给 高 层 ， 隐 藏 不 





重要 的 信息 。 24 ”一 个 理想 的 分 层 Agent 系统 结构 。 未 标注 的 
总 的 来 说 ， 不 同时 间 的 状态 之 间 ， 和 矩形 表示 层 ， 双 线 表示 信息 流 。 虚 线 说 明 某 
会 有 大 量 的 特征 在 层 与 层 之 间 传 递 。 一 时 刻 的 输出 作为 下 一 时 刻 的 输入 


对 于 每 个 时 刻 的 每 一 层 存 在 如 下 三 类 输入 : 

。 来 自 于 信念 状态 的 特征 ， 指 的 这 些 特 征 所 记 住 的 或 以 前 的 值 。 
。 从 下 层 结构 得 到 的 感知 的 特征 。 

© 从 上 层 结构 得 到 的 命令 的 特征 。 

对 于 每 个 时 刻 的 每 一 层 存在 如 下 三 类 输出 : 


第 2 章 Agent 体 系 结构 和 分 层 控 制 33 


。 对 应 上 层 的 更 高 等 级 的 感知 。 

。 对 应 下 层 的 低 等 级 命令 。 

。 信念 状态 特征 的 下 一 个 值 。 

层级 的 实现 方式 决定 了 层 的 输出 是 如 何 由 输入 的 函数 得 出 。 此 函数 的 计算 可 以 涉及 任 
意 计算 , 但 目的 是 使 每 层 尽 可 能 简单 。 

为 了 实现 控制 器 ， 层 上 的 任何 输入 必须 有 确切 的 赋值 来 源 。 每 个 感知 或 者 命令 输入 应 
该 源 自 与 其 相连 的 其 他 层 的 输出 。 其 他 的 输入 来 源 于 记 住 的 信念 。 而 层 上 的 输出 不 必 有 相 
ENR, 或 者 可 与 多 个 输入 相连 接 。 

高 级 推理 在 高 层 上 给 出 ,一般 是 离散 的 、 定 性 的 ， 而 底层 中 给 出 的 低级 推理 则 是 连续 
和 定量 的 ( 见 下 面 “ 定 性 与 定量 表示 ”的 内 容 )。 一 个 可 推理 产生 离散 和 连续 两 种 值 的 控制 器 
被 称 为 混合 系统 。 


定性 与 定量 表示 


很 多 的 科学 工程 都 会 考虑 使 用 微 积分 作为 主要 工具 来 进行 数值 量化 的 定量 推理 。 而 定 
性 推理 一 般 使 用 逻辑 来 在 给 定 参 数 条 件 下 进行 性 质 上 的 区 分 而 非 数值 上 的 推理 。 

定性 推理 很 重要 ， 原 因 如 下 : 

。 一 个 Agent 可 能 无 法 获知 确切 的 数值 。 例如， 对 于 一 个 个 咖 啡 的 传送 机 磊 人 ， 它 
也 许 不 能 计算 出 倒 癌 啡 时 咖啡 壶 的 最 佳 倾斜 角度 ， 但 是 一 个 简单 的 控制 规则 就 足 
够 给 杯子 加 入 合适 高 度 的 咖啡 。 

。 无 视 数量 的 推理 有 时 可 能 更 为 合适 。 例 如 ， 你 也 许 希 望 机 器 人 的 策略 是 ， 只 要 能 
在 其 可 正常 操作 的 范围 内 ， 在 工作 时 便 可 无 视 一 些 东 西 ， 如 机 器 人 负载 是 多 少 、 
地 板 有 多 滑 或 者 电池 的 实际 电量 还 有 多 少 。 

。 一 个 Agent 需要 做 定性 推理 来 决定 哪 条 定量 规则 更 为 合适 。 比 如 ， 如 果 传 送 机 融 
人 正在 向 咖啡 杯 中 加 咖啡 不同 的 定量 规则 适合 于 决定 在 以 下 情况 下 咖啡 往 哪里 
流 : 当 咖 啡 壶 的 倾斜 角度 不 够 徊 啡 流出 时 ， 当 咖啡 加 入 至 一 个 没 满 的 杯子 时 ， 当 
咖啡 杯 满 并 流出 时 。 

定性 推理 采用 离散 值 ， 其 中 有 多 种 不 同 的 形式 : 

。 标志 是 用 于 在 建 模 个 体 中 进行 定性 区 分 的 数值 。 在 咖啡 这 个 例子 中 ， 有 很 多 重要 
的 定性 区 分 ， 包 括 咖 啡 杯 是 否 为 空 、 部 分 满 、 满 了 。 这 些 标志 值 对 用 于 预计 如 果 
杯子 足够 倾斜 或 者 咖啡 倒 入 杯 中 时 会 发 生 什 么 来 说 是 必需 的 。 

。 数量 级 顺序 推理 是 种 无 视 轻 微 差别 的 近似 推理 。 举 个 例子 ， 一 个 部 分 满 的 咖啡 杯 
可 能 已 经 满足 传送 要 求 ， 还 有 一 半 满 和 接近 空 。 这 些 模糊 定义 并 没有 一 个 明确 定 
义 的 边界 。 在 杯 中 咖啡 的 实际 量 间 和 定性 描述 存在 某 些 关系 ， 但 是 其 中 并 没有 严 
格 的 数值 因子 。 

。 定性 的 导数 可 以 表明 是 和 否 一 些 数值 在 增加 、 减 少 或 是 不 变 。 

一 个 灵活 的 Agent 在 其 做 定量 推理 之 前 需要 做 定性 推理 。 有 时 只 需要 定性 推理 。 因 此 

Agent 并 不 总 是 需要 进行 定量 推理 ， 但 是 有 时 定量 和 定性 推理 都 需要 。 


【 例 2-4] 我 们 认定 一 个 传送 机 器 人 能 在 躲避 障碍 物 的 同时 执行 高 级 的 导航 任务 。 假 
定 传送 机 器 人 需要 在 避 开 可 能 的 障碍 物 的 同时 按照 顺序 访问 图 1-7 中 环境 的 一 系列 位 置 。 
假设 传送 机 器 人 有 像 轿车 一 样 的 轮子 ， 且 每 个 时 刻 可 以 选择 直 走 、 右 拐 或 左 拐 。 但 不 
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能 停止 运动 。 速 度 是 恒定 的 ， 且 唯一 的 指令 是 设 定 转 向 角度 。 轮 子 的 转向 是 瞬时 完成 的 ， 
但 是 调整 至 一 个 确定 角度 需要 时 间 。 因 此 机 器 人 只 能 向 正 前 方 运动 或 按照 一 个 固定 的 半径 
绕 圈 。 

机 器 人 有 一 个 位 置 传感器 ， 可 以 给 自己 提供 当前 坐标 和 方向 。 还 有 唯一 一 个 伸 向 正 前 
稍 偏 右 的 触觉 传感器 ， 用 于 探测 是 否 碰 触 到 障碍 。 在 下 面 的 例子 中 ， 传 感 器 指向 前 方 偏 右 
30 度 的 方向 。 机 器 人 不 自 带 地 图 ， 且 环境 
可 以 改变 (如 ; 障碍 可 以 移动 ) 。 

对 于 此 类 传送 机 器 人 的 分 层 控制 器 已 在 :… 
图 2-5 中 给 出 。 此 机 器 人 有 个 高 级 规划 需要 :| 
执行 。 这 个 规划 是 按 顺 序 访问 一 系列 地 点 。 
机 器 人 需要 感知 环境 ， 然 后 在 环境 中 移动 以 
便 执行 规划 。 底 层 的 具体 细节 并 未 在 图 中 
给 出 。 

最 高 层 ， 被 称 为 后 续 规划 层 ， 在 例 2-6 
中 有 描述 。 那 一 层 获取 一 个 用 于 执行 的 规 
划 。 此 规划 是 所 需 访问 地 点 的 名 字 的 顺序 排 
列 。 地 点 会 按照 顺序 选中 ， 每 次 选中 的 地 点 
都 会 转换 成 当前 目标 。 此 层 将 决定 目标 的 
z-y BREE. CHE AA RE HEE A a E 
标 位 置 。 高 层 知道 位 置 的 名 字 ， 而 底层 仅 知 
道 坐 标 。 < 

高 层 中 保留 着 相关 的 信念 状态 ， 包 含 一 
系列 机 器 人 仍 需 访问 的 地 点 的 名 称 和 当前 目 图 2-5 传送 机 器 人 的 分 层 分 解 
标的 坐标 。 它 以 当前 目标 坐标 的 形式 给 中 间 层 传达 命令 。 

中 间 层 ， 也 可 被 称 为 前 往 目 标 并 鳞 避 障碍 层 ， 它 试图 在 避 开 障碍 的 同时 前 往 当前 目标 
地 点 。 中 间 层 在 例 2-5 中 有 描述 。 目 标的 位 置 ， 即 target_pos 可 从 上 层 获 得 。 当 中 间 层 到 
达 目 标 位置 时 ， 它 会 通过 将 arrived 设 为 真 来 告诉 顶层 其 已 完成 目标 。 中 间 层 可 给 一 直 在 
等 待 的 顶层 发 送 中 断 通 知 来 达成 此 目的 ， 当 然 顶 层 也 可 能 一 直 在 监听 中 间 层 的 运行 情况 来 
判定 何 时 arrived 状态 为 真 。 当 arrived 变 为 真 时 ,顶层 接 着 会 将 目标 位 置 改 为 规划 中 下 
个 位 置 的 坐标 点 。 因 为 顶层 改变 了 当前 目标 位 置 ， 中 间 层 必须 使 用 前 一 个 目标 位 置 来 决定 
其 是 否 到 达 目 标 。 因 而 ， 中 间 层 必须 从 顶层 获得 当前 和 之 前 的 目标 坐标 : 之 前 的 坐标 位 置 

[53] 用 于 决定 其 是 否 已 经 到 达 ， 而 现在 的 目标 坐标 是 用 于 决定 将 往 何 处 去 。 

中 间 层 可 以 获知 机 器 人 的 当前 坐标 和 方向 ， 且 能 决定 其 触觉 传感器 是 开启 还 是 关闭 。 
它 使 用 一 个 非常 简单 的 策略 ， 即 直行 向 目标 直至 被 阻碍， 此 时 其 会 选择 左 拐 。 

中 间 层 是 建立 在 底层 之 上 的 ， 底 层 会 提供 机 器 人 的 一 些 简单 看 法 。 底 层 可 称 为 行进 机 
器 人 和 报告 障碍 及 位 置 层 。 它 执行 转向 命令 并 报告 机 器 人 的 位 置 、 方 向 及 传感器 的 开关 
状态 。 

在 层 的 内 部 是 特征 ， 而 特征 可 以 为 其 他 特征 值 和 该 层 输入 的 函数 。 每 个 特征 有 一 个 所 
依赖 的 特征 或 输入 的 一 个 弧 形 连接 。 特 征 的 相互 依赖 图 一 定 是 非 循 环 的 。 非 循环 图 使 得 控 
制 器 可 以 通过 运行 一 个 顺序 指定 数值 的 程序 而 实现 。 而 构成 信念 状态 的 特征 可 从 内 存 中 读 

RASA. 
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【 例 2-5) 前 往 目 标 并 衍 避 障碍 的 中 间 层 操纵 机 器 人 来 躲避 障碍 物 。 此 层 的 输入 与 输 
出 在 图 2-6 中 给 出 。 

机 器 人 有 一 个 通过 触摸 来 发 现 障 碍 物 的 触 
党 传感器 。 由 下 层 提供 的 一 个 比特 数值 可 以 判 
定 触觉 传感器 是 否 磁 触 到 障碍 。 底 层 也 提供 机 
器 人 的 当前 位 置 和 方向 。 机 器 人 所 有 能 做 的 事 
情 只 是 向 左 或 向 右 旋转 一 个 角度 ， 或 者 直行 。 
而 此 层 的 目的 是 让 机 器 人 向 当前 目标 位 置 运行 ， 
并 躲 开 路 上 的 障碍 ， 到 达 时 发 出 到 达 报 告 。 

控制 器 的 此 层 不 包含 内 部 信念 状态 ， 因 此 并 
不 存在 信念 状态 转换 函数 。 而 用 于 控制 机 器 人 转 
向 的 命令 函数 则 是 其 输入 和 是 否 已 到 达 的 函数 。 

当 机 器 人 的 当前 位 置 接近 于 上 一 个 目标 位 
置 时 说 明 其 已 到 达 。 因 此 arrived 状态 会 被 指定 
一 个 值 ， 它 是 机 器 人 当前 位 置 、 前 一 个 目标 位 
置 与 一 个 阅 值 常数 共同 决定 的 函数 : 

arrived := distance(previous_ target_possrobot_pos) < threshold 
其 中 ，:= 是 指定 ，distance 是 欧 几 里 得 距离 ，threshola 是 一 个 合适 的 距离 。 

如 果 触 觉 传感器 开 则 左 转 ， 否 则 朝向 目标 位 置 。 这 可 以 通过 给 steer 指定 合适 的 值 来 [55] 
完成 : 


if whisker_sensor = on 





图 2-6 传送 机 器 人 的 中 间 层 


then steer :一 left 
else if straight_ahead (robot _ pos ,robot_dir ,current_target_ pos) 
then steer := straight 
else if le ft_of (robot _position , robot dir ,current_target_ pos) 
then steer := le ft 
else steer := right 
end if 
当 机 器 人 位 于 robot_pos， 面 朝方 向 robot_dir， 且 当前 目标 位 置 current_target_pos 在 
机 器 人 的 前 方位 置 ， 并 满足 一 些 阐 值 限制 时 (对 于 后 面 的 例子 ， 此 立 值 为 正 前 方 偏 移 11°). 
straight_ahead(robot_pos, robot_dir, current_target_pos) HH. BX left_of 用 于 检测 
目标 是 否 在 机 器 人 左 侧 。 
此 层 是 纯 定 量化 的 。 它 以 数字 量化 推理 
而 非 使 用 离散 值 。 < 
【 例 2-6] 最 顶层 ， 也 叫 后 续 规 划 层 ， 
会 被 给 予 一 个 规划 ， 该 规划 为 一 个 需要 顺序 
访问 的 地 点 的 名 单 。 其 中 都 是 各 种 目标 ， 这 
些 目标 都 可 被 规划 者 开发 出 来 ， 如 在 第 8 章 
中 开发 出 的 那些 。 当 机 器 人 到 达 前 一 目标 时 
顶层 也 会 被 告知 。 它 必须 将 当前 目标 坐标 输 


出 给 中 间 层 ， 并 记 住 执行 规划 时 其 需要 的 。 
此 层 显示 在 图 2-7 中 。 2-7 传送 机 器 人 控制 器 的 顶层 
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该 层 会 保留 内 部 信念 状态 。 它 会 记 住 当 前 目标 位 置 和 其 他 需要 去 访问 的 位 置 。 其 中 to 
_do 特征 的 数值 是 待定 访问 的 地 点 的 一 个 列表 。 而 target_pos 特征 保留 着 当前 目标 的 
位 置 。 

一 且 机 器 人 到 达 它 的 前 一 目标 位 置 ， 下 一 个 目标 位 置 就 会 变 成 下 一 个 需要 访问 地 点 的 
坐标 。 高 层 规划 会 以 位 置 名 字 的 形式 给 予 机 器 人 ， 因 此 必须 将 其 转换 成 中 间 层 可 以 使 用 的 
坐标 形式 。 下面 的 编码 说 明了 当 机 器 人 到 达 前 一 目标 位 置 时 目标 位 置 和 如 .co 列表 如 何 
改变 。 

if arrived and not empty (to_do) 

then 
target_pos' := coordinates (head (to_do)) 
to_do' := tail (to_do) 

end if 
其 中 ，to_do' 是 to_do 特征 的 下 一 个 值 ，target_pos 为 下 一 个 目标 位 置 。 在 这 里 head(to_ 
do) 是 to_do 列表 的 第 一 个 元 素 ，tail(to_do) 是 余下 的 to_do 列表 ， 当 to_do 列表 为 空 时 ， 
empty(to_do) HH. 

在 这 层 中 ， 如 果 to_do RERE., WEARER AA. Ca HS—-A 
原 地 绕 圈 。 见 习题 2. 3。 

此 层 可 确定 已 命名 地 点 的 坐标 。 通 过 一 个 简单 的 有 位 置 坐标 的 数据 库 就 可 以 实现 。 如 
果 地 点 不 会 移动 上 且 事 先知 道 ， 使 用 这 样 一 个 数据 库 是 很 明智 的 。 然 而 ， 如 果 目 标 可 以 移 
动 ， 那 么 下 层 必须 能 告诉 上 层 目 标 当 前 位 置 。 上 层 必须 请 求 下 层 告知 给 定 目 标的 坐标 。 见 
习题 2. 8。 

为 了 完成 控制 器 ， 还 必须 初始 化 信念 状态 变量 ， 且 高 级 规划 必须 输入 。 通 过 使 用 规划 
的 尾部 来 初始 化 to_do 列表 和 使 用 第 一 个 位 置 的 坐标 来 初始 化 target_pos， 这 就 可 以 实现 。 

图 2-8 给 出 了 有 一 个 障碍 的 规划 [goto(o109)，goto(storage)，goto(0103)|] 的 仿真 。 
机 器 人 开始 时 位 于 位 置 C(0，5) 且 面 朝 90 度 ( 尼 ) ， 而 在 位 置 (20，20) 与 (35， 一 5) 之 间 有 一 
个 矩形 障碍 。 < 











图 2-8 执行 例 2-6 中 规划 的 机 器 人 仿真 


Agent 对 世界 的 建 模 


信念 状态 的 定义 非常 一 般 ， 且 没有 限制 哪些 是 Agent 应 该 记 住 的 。 一 般 来 说 Agent 保 
留 一 些 记 界 的 模型 是 很 有 用 处 的 ， 尽 管 这 些 模型 不 完全 、 不 精确 。 一 个 关于 世界 的 模型 是 
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某 一 时 刻 世 界 状态 和 /7 或 世界 的 动态 的 一 种 表示 形式 。 

对 于 Agent 来 说 ， 可 以 基于 其 命令 来 保持 和 更 新 世界 的 信念 。 这 种 方法 需要 世界 的 状 
态 模型 和 世界 的 动态 模型 。 给 定 某 个 时 刻 的 状态 和 动态 ， 可 以 预测 下 个 时 刻 的 状态 。 这 一 
过 程 也 被 称 为 推算 。 例 如 ， 机 器 人 可 以 保留 其 对 自己 位 置 的 估计 并 基于 自己 的 动作 来 自我 
更 新 。 若 世界 是 动态 的 或 者 执行 器 有 噪声 (如 半径 不 精确 的 轮子 的 滑动 或 者 加 速 不 连续 )， 
噪声 会 累积 ， 因 此 和 估算 的 位 置 很 快 就 会 变 得 不 准确 以 至 于 无 用 。 然 而 如 果 模 型 在 某 些 抽 象 
层次 上 是 准确 的 ， 则 会 成 为 该 抽象 层次 上 的 合适 模型 。 

男 一 种 方法 是 使 用 感知 来 构建 世界 的 相关 部 分 的 模型 。 感 知 就 是 用 传感器 信息 来 理解 
世界 。 举 个 例子 ， 这 可 能 会 包括 使 用 视觉 来 分 辨 世界 的 特征 和 使 用 这 些 特 征 来 决定 机 器 
人 、 障 碍 物 或 者 需要 捡 起 的 包 补 的 位 置 。 感 知 一 般 都 是 模糊 的 和 有 噪声 的 。 仅 基于 一 张 世 
界 的 图 片 很 难 建立 一 个 三 维 世界 模型 。 

一 个 更 加 有 前 景 的 方法 是 将 Agent IE SER A Bs TNS Me BSS 合 起 来 。 这 可 以 采 
用 多 种 形式 : 
。 如 果 向 前 预测 的 噪声 与 感知 的 噪声 都 有 建 模 ， 那 下 一 个 信念 状态 就 可 以 使 用 贝 叶 
斯 规则 来 估算 。 这 也 被 认为 是 过 滤 。 


。 如 果 使 用 更 复杂 的 传感器 ， 如 视觉 传感器 ， 那 就 可 以 使 用 模型 来 预测 何 处 可 以 发 ， 


现 视觉 特征 ， 接 着 便 可 用 视觉 来 查找 预测 位 置 附近 的 这 些 特征 。 这 会 使 得 视觉 任 

务 变 得 更 加 简单 ， 上 且 相 对 于 前 面 的 仅 依 靠 预 测 ， 使 用 视觉 可 以 大 幅 减少 位 置 误 差 。 

如 果 可 以 采用 如 下 方式 得 到 最 优 动 作 ， 即 通过 首先 发 现 最 佳 的 世界 模型 ， 然 后 再 使 用 

此 模型 来 决定 最 佳 动作 ， 那 么 控制 器 问题 便 是 可 分 割 的 。 不 幸 的 是 ， 大 部 分 控制 问题 是 不 

可 分 割 的 。 这 意味 着 Agent 需要 考虑 多 种 模型 来 决定 接 下 来 做 什么 ， 且 它 可 从 世界 获得 什 

么 信息 取决 于 其 对 该 信息 的 不 同 处 理 。 通 常 来 讲 ， 并 不 存在 与 Agent 行为 完全 独立 的 世界 
最 佳 模型 。 


2.4 KARMA Agent 


Agent 控制 器 有 许多 可 使 用 的 方法 : 

。 BAX Agent 是 一 个 可 以 在 实际 世界 中 运行 的 Agent， 其 行为 会 在 一 个 实际 领域 内 
执行 ， 感 知 也 来 自 此 领域 。 

。 仿真 Agent 是 一 个 运行 在 模拟 主体 和 环境 中 的 Agent， 即 一 个 可 以 接收 命令 并 返回 
适当 感知 的 程序 ， 经 常用 于 控制 器 实际 实现 之 前 进行 纠 错 。 

。 Agent 系统 模型 是 一 个 包括 控制 器 模型 (这 个 不 能 确定 是 否 为 真实 编程 ) 、 主 体 模型 
和 环境 模型 ， 它 可 以 回答 Agent 会 有 何 种 动作 。 这 样 一 个 模型 可 用 于 Agent 创建 
前 证 明 其 性 质 ， 或 者 用 于 回答 那些 实际 Agent 很 难 或 者 无 法 回答 的 假说 问题 。 

这 里 的 每 一 种 都 有 不 同 的 适应 目的 。 

。 媒人 模式 适用 于 Agent 必须 实际 使 用 的 情况 。 

。 当 有 很 多 种 设计 选择 需要 实现 ， 且 构建 一 个 实体 又 比较 昂贵 或 者 环境 比较 危险 、 
不 易 见 到 时 ， 仿 真 Agent 更 适用 于 测试 和 纠 错 控制 器 。 它 也 允许 我 们 在 现实 中 难 
以 实现 的 、 非 寻常 情况 组 合 下 的 环境 中 测试 Agent, 

仿真 情况 如 何 主要 取决 于 环境 模型 的 好 坏 。 模 型 总 是 会 抽象 世界 的 一 些 特 征 。 合 适 的 

抽象 对 于 仿真 来 说 是 很 重要 的 , 它 能 告诉 我 们 Agent 是 否 能 在 真实 环境 中 工作 。 

> Agent 的 模型 、 可 能 环境 集 的 模型 和 一 个 特定 的 正确 行为 可 以 允许 我 们 证 明 命 题 ， 
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即 关 于 Agent 如 何在 这 样 的 环境 中 工作 。 例 如， 我 们 可 能 希望 证 明 使 用 特定 控制 
占 的 机 项 人 总 是 可 以 到 达 目 标 确定 距离 范围 内 ， 且 一 定 不 会 迷路 ,不 会 月 演 。 当 
然 ， 所 证 实 的 是 否 正确 取决 于 模型 是 否 准 确 。 

。 给 定 一 个 Agent 和 环境 的 模型 ，Agent 的 某 些 方面 可 以 先 不 指定 ， 之 后 可 调整 以 
生成 所 希望 的 或 者 最 优 的 行为 。 这 是 优化 与 规划 中 的 常用 方法 。 

。 经 过 强化 学 习 ， 同 现实 世界 交互 时 ，Agent 可 展现 出 更 优 的 性 能 。 


2.5 通过 推理 来 行动 


之 前 的 部 分 假定 Agent 有 着 很 多 在 各 个 时 段 保 留 下 来 的 信念 状态 。 对 于 一 个 智能 
Agent， 信 和 念 状态 可 以 非常 复杂 ， 甚 至 可 用 占用 单独 一 层 。 

学 习 和 构建 智能 Agent 的 经 验 表 明智 能 Agent 需要 某 些 信念 状态 的 内 部 表示 方法 。 知 
识 指 的 是 领域 内 的 信息 ， 可 用 于 解决 该 领域 内 的 问题 。 知 识 指 的 是 用 于 特定 情境 、 领 域 的 
一 般 性 知识 。 因 此 关于 特定 状态 更 常 使 用 知识 而 非 信念 。 基 于 知识 的 系统 是 可 以 使 用 领域 
内 知识 来 动作 或 者 解决 问题 的 系统 。 

哲学 家 们 将 知识 定义 为 正确 的 、 经 过 证 实 的 信念 。 人 工 智 能 研究 者 们 则 更 倾向 于 融合 
两 种 概念 。 知 识 更 倾向 于 已 被 证 实 的 一 般 性 信息 。 而 信念 则 是 可 以 被 新 的 信息 修正 的 信 
息 。 一 般 信念 都 会 伴随 着 可 信和 度 和 如 何 交 互 的 模型 。 在 人 工 智能 系统 里 ， 知 识 不 必 是 真 
的 ， 且 只 在 有 用 时 才 去 证 实 。 这 点 区 分 经 常会 变 得 模糊 不 清 ， 因 为 经 常会 有 Agent 的 一 个 
模型 将 某 种 信息 看 做 真 ， 而 另 一 个 模型 则 认为 这 些 信 息 需 要 继续 修正 。 

图 2-9 是 图 1-3 的 精练 表示 ， 针 对 的 是 基于 知识 的 Agent。 知 识 库 是 离线 建立 的 ， 但 
被 用 于 在 线 产 生动 作 。Agent 的 这 种 分 解 与 Agent 的 分 层 观 点 是 正 交 设计 ; 智能 Agent Bi 
需要 分 层 组 织 又 需要 知识 库 。 

在 线 是 指 ， 当 一 个 Agent 动作 时 ， 
它 会 使 用 自己 的 知识 库 、 对 世界 的 观察 、 
目标 和 能 力 来 共同 选择 去 做 什么 及 更 新 
知识 库 。 知 识 库 是 长 期 记忆 ， 这 里 存储 
着 将 来 动作 时 会 用 到 的 知识 。 这 些 知 识 
来 自 于 先 验 知识 以 及 从 数据 和 先前 经 验 
所 学 的 结合 。 信 和 念 状态 则 是 Agent 的 短 
期 记忆 ， 它 保留 着 步 长 之 间 所 需要 的 当 
前 环境 模型 。 一 般 性 知识 与 专门 知识 之 
间 并 不 总 是 存在 明显 的 界限 ; 比如 ， 一 图 2-9 Agent 的 离线 和 在 线 分 解 
个 户外 的 传送 机 器 人 可 以 学 习 特 定 城 市 的 一 般 性 知识 。 从 推理 引擎 到 知识 库 是 存在 反馈 
的 ， 因 为 在 环境 中 观察 和 行动 可 以 提供 更 多 的 可 供 学 习 的 数据 。 

离线 ， 指 的 是 在 Agent 有 所 动作 之 前 ， 它 能 构建 一 个 对 其 在 线 行动 时 有 用 的 知识 库 。 
离线 计算 的 任务 是 使 得 在 线 计 算 更 加 有 效 、 高 效 。 知 识 库 是 通过 先 验 知识 和 先前 经 验 得 来 
的 数据 ( 既 可 是 它 自己 的 先前 经 验 ， 也 可 是 别人 给 予 的 数据 ) 来 构建 。 机 器 学 习 领 域 中 的 研 
究 者 们 已 经 考虑 过 有 很 多 数据 和 仅 一 点 先 验 知 识 的 情况 。 而 专家 系统 中 研究 了 有 很 多 先 验 
知识 和 很 少 其 至 没有 可 用 于 学 习 的 数据 的 情况 。 然 而 ， 对 于 几乎 所 有 非 平凡 领域 ，Agent 
必须 使 用 所 有 可 用 的 信息 ， 因 此 既 需 要 丰富 的 先 验 知识 又 需要 大 量 数 据 。 

目标 和 能 力 是 离线 赋予 、 在 线 赋予 还 是 都 赋予 ， 主 要 取决 于 Agent。 举 个 例子 ， 一 个 





传送 Agent 可 能 有 保证 实验 室 清洁 并 不 损坏 自己 或 者 其 他 物品 的 一 般 性 目标 ,但 是 它 也 可 

在 运行 中 获取 其 他 传送 目标 。 如 果 知 识 库 被 调整 为 适合 特定 目标 和 能 力 ， 那么 在 线 计算 会 

变 得 更 加 高 效 。 然 而 ， 当 不 能 获知 运行 中 的 全 部 目标 和 能 力 时 ， 这 一 般 来 说 不 大 可 能 。 
图 2-10 更 为 详细 地 显示 了 Agent 与 环境 的 交互 接口 。 





图 2-10 Agent 的 内 部 ， 职 能 说 明 


2.5.1 设计 时 间 与 离线 计算 


在 线 计算 需要 的 知识 库 可 以 在 设计 时 便 初始 化 、 然 后 由 Agent 离线 扩张 。 

本 体 是 用 于 信息 系统 的 符号 含义 的 一 种 描述 。 它 指定 了 建 模 什么 及 系统 中 使 用 的 词 
汇 。 最 简单 的 情况 ， 如 果 Agent 正在 使 用 完全 观察 的 明确 的 基于 状态 的 表述 ， 那 么 本 体 就 
表示 环境 和 状态 间 的 映射 方式 。 如 果 没 有 这 个 映射 ，Agent 也 许 知道 其 在 状态 57, 但 是 如 
果 没 有 本 体 ， 对 于 其 他 Agent 或 者 人 来 说 ， 这 个 信息 毫 无 意义 。 在 其 他 情况 下 ， 本 体 同 样 
能 定义 特征 或 者 个 体 和 关系 。 它 被 用 于 将 未 加 工 的 感知 转换 为 对 于 Agen 有 意义 的 信息 ， 
或 者 用 于 从 人 类 或 者 其 他 知识 源 处 获得 有 意义 的 输入 。 

本 体 是 由 社区 构建 的 ,一 般 独 立 于 特定 的 知识 库 和 特别 的 应 用 。 正 是 由 于 此 共 亭 特性 
才 人 允许 使 用 多 种 来 源 ( 视 觉 、 人 类 、 数 据 库 ) 的 数据 进行 有 效 的 沟通 和 内 部 操作 。 个 体 和 关 
系 情 况 的 本 体 在 13. 3 节 讨 论 。 

本 体 逻 辑 上 应 早 于 数据 和 先 验 知识 : 我 们 需要 一 个 本 体 来 获取 数据 或 者 知识 。 没 有 本 
体 的 话 ， 数 据 仅 是 比特 串 。 没 有 本 体 ， 人 们 不 知道 应 输入 什么 : 正 是 本 体 给 数据 赋予 了 含 
义 。 一 般 来 说 本 体会 在 系统 开发 时 逐步 完善 。 

本 体会 指定 一 个 或 多 个 抽象 层 。 如 果 本 体 发 生 改 变 ， 那 数据 必须 改变 。 例 如 ， 机 器 人 
应 该 有 关于 障碍 物 的 本 体 ( 如 任何 实体 对 象 都 是 应 该 避 开 的 障碍 物 )。 如 果 再 被 扩展 到 可 区 
分 的 人 人 类、 椅子、 桌子、 咖啡 杯 或 者 其 他 类 似 东 西 ， 那 么 就 需要 更 多 的 关于 环境 的 不 同 


| 61 | 


[62 | 


th 





[ 63 | 


40 第 一 部 分 世界 中 的 Agent: + AX Agent 及 如 条 创建 它们 


数据 。 
知识 库 是 离线 地 通过 结合 专家 知识 和 数据 来 构建 。 其 通常 在 Agent 了 解 将 活动 的 环境 
前 就 已 构建 。 在 线 计 算 的 部 分 通常 包括 保存 并 调整 知识 库 。 

离线 时 ， 涉 及 基于 知识 系统 的 有 三 个 主要 任务 : 

。 软件 工程 师 构 建 推理 引擎 和 用 户 接 口 。 他 们 通常 并 不 知道 知识 库 的 内 容 。 在 使 用 
他 们 所 实现 的 系统 方面 ,他 们 并 不 需要 很 专业 ; 然而 ， 在 编程 语言 ， 如 Java, 
Lisp, Prolog 的 使 用 方面 ， 而 非 他 们 自己 所 设计 系统 的 知识 表示 语言 方面 ， 他 们 
必须 是 专家 。 

。 领域 专家 是 那些 在 某 一 领域 有 适当 先 验 知识 的 人 。 他 们 了 解 相关 领域 , 但 是 通常 
来 说 他 们 对 于 一 些 可 能 会 遇 到 的 特殊 情况 一 无 所 知 。 例 如 ， 一 个 药学 领域 的 专家 
知道 疾病 、 症 状 及 相应 关联 ,但 是 可 能 却 不 知道 某 个 特定 病人 的 症状 或 者 疾病 。 
一 个 传送 机 器 人 领域 的 专家 也 许 知 道 必 须 认 识 的 个 体 种 类 、 电 池 仪 表 的 意义 与 各 
种 动作 的 耗费 量 。 领 域 专家 通常 并 不 知道 Agent 会 遭遇 的 环境 的 详细 信息 ， 比 如 ， 
对 于 诊断 助手 来 说 的 病人 的 详细 信息 ， 或 者 机 器 人 所 在 房间 的 详细 信息 。 

领域 专家 通常 并 不 清楚 人 工 智能 系统 的 内 部 工作 过 程 。 一 般 他 们 仅 有 关于 知 
识 的 语义 观点 且 并 不 关心 推理 引擎 在 使 用 何 种 算法 。 系 统 应 以 领域 的 形式 与 他 们 
进行 交互 ， 而 非 计算 步 又 的 形式 。 例 如 ， 若 一 个 知识 库 采 用 显示 答案 产生 轨迹 的 
方式 ， 然 后 寄 希 望 于 领域 专家 来 修正 此 知识 库 是 不 明智 的 。 因 此 ， 并 不 需要 提供 
给 领域 专家 修正 工具 来 跟踪 程序 的 执行 。 

。 知识 工程 师 在 同 领域 专家 协商 的 基础 上 设计 、 构 建 和 修正 知识 库 。 他 们 了 解 系统 
的 详细 信息 且 通 过 领域 专家 了 解 领 域内 的 详细 信息 。 但 是 他 们 对 于 具体 案例 毫 不 
了 解 。 他 们 应 该 知道 有 用 的 推理 技术 和 完整 系统 的 工作 流程 。 

同样 一 个 人 可 以 完成 多 个 任务 : 一 个 了 解 人 工 智能 的 领域 专家 可 以 作为 知识 工程 师 ; 

一 个 知识 工程 师 可 以 作为 编写 系统 的 人 。 一 个 大 的 系统 可 以 有 许多 不 同 的 软件 工程 师 、 知 
识 工程 师 和 专家 ， 其 中 每 一 个 人 专门 执行 系统 的 一 部 分 。 这 些 人 可 能 甚至 不 知道 他 们 仅 是 
系统 的 一 部 分 ， 他 们 发 布 的 信息 可 被 任何 人 使 用 。 

离线 时 ，Agent 可 以 结合 专家 知识 和 数据 。 在 这 个 阶段 ， 系 统 可 以 被 测试 和 修正 。 

Agent 能 够 计算 那些 非特 殊 指 定 情况 。 例 如 ， 它 能 编译 部 分 知识 库 来 使 得 推理 更 加 高 效 。 


2.5.2 在 线 计算 


在 线 状态 时 ， 上 有 具体 事例 的 信息 开始 可 用 ， 且 Agent 需要 开始 行动 。 这 些 信 息 包括 领域 
的 观察 信息 以 及 可 行动 作 、 偏 好 和 目标 的 信息 。Agent 可 以 从 传感器 、 用 户 和 其 他 信息 源 
处 (如 网 站 ) 获 得 信息 ,但 是 我 们 假定 它 不 能 从 领域 专家 或 者 知识 工程 师 处 获得 信息 。 

一 般 来 说 Agent 的 离线 计算 时 间 要 远大 于 在 线 计算 时 间 。 然 而 ， 在 线 计算 时 它 能 更 好 
地 利用 特定 目标 和 特定 的 观察 。 

例如 ， 一 个 医药 诊断 系统 仅 当 在 线 状态 时 才 有 特定 病人 的 详细 信息 。 离 线 状态 时 ， 它 
能 获知 疾病 和 症状 相关 性 的 信息 ， 并 能 对 知识 进行 修正 和 完善 。 仅 当 它 在 线 状态 时 ， 才 能 
处 理 特定 病人 的 相关 信息 o 

在 线 主要 包括 以 下 儿 个 任务 : 

。 用 户 是 一 个 需要 专业 知识 的 人 或 者 有 个 体 案例 信息 的 人 。 用 户 通常 不 是 知识 库 相 

关 领 域 的 专家 ， 所 以 他 们 一 般 并 不 知道 系统 需要 什么 样 的 信息 。 因 此 不 可 能 奢望 
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他 们 能 自主 地 提供 特定 案例 的 信息 。 这 时 候 就 需要 一 个 简单 自然 的 界面 ， 因 为 用 
户 通常 并 不 知道 系统 的 内 部 结构 。 他 们 一 般 会 根据 系统 给 出 的 建议 做 一 个 相对 全 
面 的 决定 ， 因 此 需要 对 所 给 的 建议 给 出 一 个 合适 的 解释 。 

。 传感器 会 提供 环境 的 信息 。 例 如 ， 温 度 计 是 一 个 可 以 提供 其 所 处 位 置 当前 温度 的 
传感器 。 传 感 器 也 可 以 更 加 复杂 ， 如 视觉 传感器 。 在 最 底层 ， 视 党 传感器 简单 地 
提供 每 秒 30 帧 的 大 小 为 720 * 480 像素 的 矩阵。 而 在 更 高 屋 ， 视 觉 系统 也 许 能 够 
回答 一 些 特定 问题 ， 如 特定 特征 的 位 置 、 某 种 物品 是 否 存在 或 者 视野 中 是 否 存 在 
某 些 特 定 的 个 体 。 一 个 麦克 风 的 数组 可 被 用 在 底层 抽象 级 上 ， 用 来 提供 详细 的 震 
动 信息 。 它 同样 可 以 被 用 做 高 层 传感器 的 组 件 来 检测 爆炸 ， 并 预测 爆炸 的 类 型 和 
位 置 。 

传感器 主要 分 为 两 种 。 一 种 是 被 动 传感器 ， 总 是 连续 的 发 送信 息 给 Agent. 
被 动 传感器 包括 温度 计 、 相 机 和 麦克 风 。 设 计 者 可 以 选择 传感器 的 放置 位 置 和 方 
向 ， 但 是 他 们 仅 能 提供 Agent 信息 。 而 另 一 种 主动 传感器 则 恰恰 相反 ， 它 可 被 控 
制 或 者 可 向 其 咨询 信息 。 主 动 传感器 的 例子 有 很 多 ， 如 可 以 回答 关于 病人 的 特定 
信息 的 医用 探 针 ， 或 者 智能 辅导 系统 中 的 一 份 给 学 生 的 测试 。 经 常会 出 现 一 个 传 
感 器 在 底层 抽象 级 上 是 被 动 传感器 ， 而 在 高 层 抽 象 级 上 被 看 为 主动 传感器 。 例 如 ， 
相机 可 被 询问 房间 内 是 否 存在 特定 人 物 。 为 了 完成 此 任务 ， 它 必须 找 出 房间 内 的 
面孔 并 找 出 每 个 人 的 不 同 特 征 。 

。 外 部 知识 源 ， 如 一 个 网 站 或 者 数据 库 ， 一 般 能 够 回答 问题 并 且 在 受 限 领域 提供 管 
案 。Agent 可 以 向 一 个 天 气 网 站 询问 某 一 地 点 的 温度 ;也 能 向 一 个 航空 网 站 询问 
指定 航班 的 到 达 时 间 。 知 识 源 有 不 同 的 协议 和 有 效 的 权衡 机 制 。Agent 与 外 部 资 
源 间 的 接口 被 称 为 封装 ， 封 装 可 以 互相 转换 Agent 使 用 的 表达 信息 与 外 部 知识 源 
准备 去 处 理 的 查询 信息 。 一 般 来 说 封装 的 设计 意义 在 于 一 个 Agent 可 以 向 多 个 知 
识 源 询问 同一 事情 。 例 如 ,一 个 Agent 也 许 希 望 知 道 飞 机 的 到 达 时 间 ， 可 是 不 同 
的 航线 或 者 飞机 场 需 要 不 同 的 协议 接口 进入 以 获得 此 信息 。 当 一 个 网 站 或 者 数据 
库 通用 一 个 共同 的 本 体 时 ,他们 就 能 互相 使 用 信息 了 ， 因 为 相同 的 符号 代表 相同 
的 意义 。 相 同 符号 代表 相同 事情 这 也 叫做 语义 互通 。 当 他 们 使 用 不 同 的 本 体 时 ， 
那么 在 本 体 间 必 须 存 在 映射 关系 以 便 能 够 实现 互通 。 

而 且 ， 任 务 这 样 便 分 开 了 ， 尽 管 完 成 这 些 任 务 的 人 群 之 间 可 能 会 重要 。 例 如 ， 领 域 专 
家 可 以 作为 一 个 用 户 来 测试 和 修正 系统 ， 每 个 任务 对 他 们 需要 的 工具 来 说 都 有 不 同 的 要 
求 。 那 些 用 于 向 用 户 解 释 系统 如 何 得 出 结果 的 工具 ， 也 可 以 是 领域 专家 用 来 修正 知识 的 
LR. 


2.6 本 章 小 结 


。 一 个 Agent 系统 由 一 个 Agent 和 一 个 环境 组 成 。 

。 Agent 需要 传感器 和 执行 器 来 与 环境 进行 交互 。 

。 一 个 Agent 由 主体 和 相关 控制 需 组 成 。 

。 Agent 是 适应 于 时 间 ， 且 必须 根据 其 以 往 与 环境 的 交互 历史 来 决定 做 什么 

一 小 Agent 不 会 直接 访问 其 历史 ， 而 是 它 所 记 住 的 内 容 ( 信 和 念 状态 ) 和 它 刚 刚 观察 到 的 信息 。 在 每 
一 个 时 刻 ，Agent 对 于 去 做 什么 和 记 下 什么 主要 取决 于 其 信念 状态 和 当前 的 观察 。 

。 复杂 的 Agent 以 可 交互 的 分 层 结构 形式 构建 。 


. 
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+ 智能 Agent 是 需要 知识 的 ， 而 知识 在 设计 阶段 、 离 线 阶段 、 在 线 阶段 均 可 获得 ， 
2.7 参考 文献 及 进一步 阅读 


Agent 系统 的 模型 是 基于 Zhang、Mackworth[19951] 的 关于 约束 网 络 的 工作 和 Rosenschein, Kaelbling 
[1995] 的 工作 ,分 层 控制 则 是 基于 Albus[1981] 的 工作 和 Brooks[1986] 等 人 的 关于 包含 结构 的 工作 。 
Abelson、DiSessa[ 1981] 的 Turtle Geometry 从 建 模 简 单反 应 式 Agent 角度 介绍 了 相关 数学 理论 。Luen- 
berger[1979] 则 是 一 篇 值得 一 读 的 关于 Agent 与 环境 交互 的 经 典 理论 的 简介 。Simon[1996] 则 介绍 了 分 层 
控制 的 重要 性 ， , 

更 多 的 Agent 控制 细节 可 以 参看 Dean 和 Wellman[1991]、Liatombe[ 1991] 和 和 Agre[ 1995]. 

构建 智能 Agent 的 方法 论 在 Haugeland[ 1985 ]、Brooks[1991]、Kirsh[ 1991b] 和 Mackworth[1993] 中 
多 有 介绍 。 

定量 推理 在 Forbus[1996] 和 Kuipers[ 2001 | 4 HEIR, Weld 和 de Kleer[1990] 中 有 很 多 关于 定性 推 
理 的 精华 ， 同 样 ，Weld[1992] 也 是 关于 此 问题 的 。 至 于 近期 的 综述 可 查看 Price, Travé-Massuyàs, 
Milne, Ironi, Forbus, Bredeweg, Lee, Struss, Snooke, Lucas, Cavazza Ail Coghill[2006 |, 


2.8 习题 


2.1 2.3 节 提 到 一 个 论点 ， 即 不 可 能 脱离 Agent 的 任务 和 目的 而 独立 地 构建 一 个 世界 表示 。 此 习题 能 使 
你 评估 此 论点 。 
选择 一 个 特定 的 世界 ， 如 当前 你 的 桌面 的 一 部 分 。 
D 让 某 个 人 列 出 在 此 世界 上 存在 的 所 有 东西 (或 者 自己 完成 )。 
ii) 再 考虑 20 种 没有 列 出 的 ， 且 尽 可 能 相互 完全 不 同 。 例 如， 桌子 最 有 边 的 圆珠笔 的 笔头 上 的 小 
球 、 订 书 机 的 弹簧， 或 是 桌 上 某 本 书 66 页 的 第 三 个 单词。 
iii) 找 出 一 个 无 法 用 自然 语言 描述 的 东西 。 
iv) 选 定 一 个 任务 ， 如 整理 桌面 ， 并 写 出 所 有 与 此 任务 相关 的 所 有 物体 的 描述 。 
基于 此 习题 ， 讨 论 如 下 儿 个 状况 : 
(a) 世界 上 存在 什么 是 由 观察 者 观察 来 决定 的 。 
(b) 我 们 需要 某 种 方法 来 指定 到 每 一 个 个 体 ， 而 非 期 望 每 个 个 体 都 有 独立 的 名 字 。 
Co) 存在 哪些 个 体 是 由 任务 同样 也 是 世界 的 属性 决定 的 。 
CA) 为 了 描述 领域 中 的 业 个 个 体 ， 你 需要 有 一 个 极 大 的 词典 和 一 个 有 效 的 方法 来 组 合 它们 用 于 描述 
个 体 ， 而 且 这 点 必须 与 任何 特定 的 领域 无 关 。 
2.2 解释 为 何 例 2-5 中 的 中 间 层 必须 有 前 一 目标 位 置 和 当前 目标 位 置 作为 输入 。 假 定 只 有 其 中 一 个 作为 
输入 ， 哪 一 个 是 必需 的 ?这 将 会 导致 什么 间 题 ? 
2.3 例 2-6 中 的 目标 位 置 的 定义 意味 着 当 规划 结束 时 ， 机 只 人 将 会 将 其 
最 后 一 个 目标 位 置 作 为 其 目标 位 置 ， 然 后 不 断 绕 团 。 改 变 定义 使 得 
机 器 人 可 以 返回 原点 ， 然 后 围绕 原点 绕 图 。 
2.4 如 例 2-5 中 的 方法 躲避 障碍 物 很 容易 便 会 陷入 困 局 。 
(a) 设置 一 个 障 得 物 和 一 个 目标 以 便于 机 器 人 使 用 例 2-5 中 的 控制 。 ~、 E 
N, 2AM IEA HE Sk (Se RAE. 
Cb) 即使 没有 障碍 物 ， 机 器 人 也 可 能 无 法 到 达 目 的 地 。 例 如 ， 如 果 
他 在 目标 位 置 附 近 ， 它 就 会 不 断 绕 圈 而 无 法 到 达 目 标 地 点 。 设 
计 一 个 可 以 发 现 此 问题 并 能 使 其 到 达 目 标点 的 控制 器 。 
2.5 考虑 图 2-11 中 的 “机 器 人 困境 "。 
(a) 解释 一 下 为 何 它 会 使 一 个 机 器 人 难以 到 达 目标 点 g。 你 必须 解 
释 机 器 人 现在 会 有 何 种 行为 ， 且 为 何 难以 设计 一 个 更 为 复杂 的 图 211 一 个 机 器 人 困 卉 
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2.8 


2.9 
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机 器 人 (如 ， 一 个 使 用 "右手 规则 "的 机 器 人 会 沿 着 墙 走 : 当 其 碰 到 障碍 物 时 其 会 左 转 并 沿 着 堪 
走 ， 而 墙 面 始终 在 其 右 侧 ) 来 工作 。 

(b》 直 观 上 我 们 认为 如 果 想 要 脱离 这 个 迷宫 ， 需 要 当 一 个 机 器 人 擅 到 墙 后 ， 它 会 一 直 绕 着 墙 走 直 到 
右 转 次 数 与 左 转 次 数 相同 。 告 诉 我 们 如 何 实现 此 方法 ， 解 释 信念 状态 、 信 和 念 状 态 转 换 函 数 和 命 
令 函 数 。 

当 用 户 选择 并 移动 当前 目标 位 午时 ， 此 章 中 的 机 器 人 会 继续 行 至 此 目标 的 原 坐 标 处 ， 而 不 会 再 去 其 

当前 位 置 。 试 着 改变 此 控制 器 使 其 可 以 向 目标 的 当前 位 置 移动 。 

现在 的 控制 器 会 顺序 访问 todo 列表 中 的 地 点 。 

(a) 改 控 制 咒 为 投机 型 ， 当 它 需 要 选择 下 一 个 位 置 时 ， 它 会 选择 距离 当前 位 置 最 近 的 目的 地 。 当 然 
其 仍 需 访问 所 有 的 目的 地 。 

Cb) 给 出 一 个 环境 实例 ， 在 此 环境 中 新 控制 器 完成 访问 任务 花费 的 时 间 少 于 使 用 原 控制 器 花费 的 
时 间 。 

Co) 给 出 一 个 环境 实例 ， 在 此 环境 中 使 用 原 控制 器 花费 的 时 间 要 少 于 使 用 修改 后 的 控制 器 所 花费 的 
时 间 。 

(d) 改变 控制 器 ， 使 得 Agent 在 行进 的 每 一 步 都 朝向 距 其 当前 位 置 最 近 的 目的 地 。 

Ce) 使 用 (d) 中 描绘 的 控制 器 会 不 会 出 现 陷入 死 循 环 以 致 无 法 到 达 目 的 地 ， 而 使 用 原 控制 器 却 可 以 
正常 工作 的 环境 中 ? 给 出 一 个 其 会 陷入 原 地 转圈 的 例子 并 解释 为 何其 无 法 找 出 一 个 解决 方法 ， 
或 者 给 出 其 为 何不 会 陷入 转圈 的 原因 。 

改变 控制 器 使 得 机 器 人 可 以 感知 环境 并 获知 某 位 置 的 坐标 。 这 里 假定 主体 可 以 提供 已 命名 位 置 芍 

坐标 。 

假设 你 有 个 新 工作 ， 必 须 为 一 个 机 器 人 构建 一 个 控制 器 。 你 告诉 老板 你 只 需要 实现 命令 函数 和 状态 

转换 函数 。 他 们 会 对 此 产生 质疑 。 为 何 是 这 些 函 数 ? 只 需要 这 些 函 数 ? 向 其 解释 为 何 一 个 控制 器 仅 

需要 一 个 命令 函数 和 一 个 状态 转换 函数 。 请 用 适当 的 言语 ， 要 简洁 。 
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Artificial Intelligence: Foundations of Computational Agents 


状态 和 搜索 





你 看 到 过 海岸 上 的 扫 餐 在 寻找 大 西洋 的 过 程 中 一 直 向 后 爬行 ， 最 终 消失 吗 ? 人 们 也 是 
同样 的 思考 方式 。 
—H. L. Mencken (1880—1956) 


前 面 一 章 讨 论 了 Agent 是 如 何 理解 和 动作 的 ， 但 是 没有 讲 到 它们 的 目标 是 如 何 影 响 动 
作 的 。 一 个 Agent 可 以 根据 既定 的 目标 集 有 规划 的 去 动作 ， 但 是 如 果 不 能 适应 变化 的 目 
标 ， 这 样 的 Agent 就 是 非 智 能 的 。 或 者 ，Agent 能 够 根据 自身 能 力 和 既定 目标 去 推理 ， 从 
而 决定 应 该 做 什么 。 这 一 章 介 绍 将 Agent 决定 做 什么 的 问题 描述 为 在 一 个 图 中 搜索 发 现 一 
条 路 径 的 问题 ， 它 还 给 出 了 计算 机 解决 此 类 问题 的 很 多 方法 。 就 像 Mencken 在 上 面 说 的 ， 
尽管 不 都 能 达成 既定 目标 ， 人 们 还 是 想 利用 搜索 的 方法 去 解决 问题 。 


3. 1 用 搜索 进行 问题 求解 


在 Agent 推理 要 做 什么 的 最 简单 的 例子 中 ，Agent 有 一 个 基于 状态 的 世界 模型 ， 没 有 
不 确定 性 ， 并 具有 要 完成 的 目标 。 这 个 模型 或 者 是 扁平 的 (不 分 层 的 ) 表 示 ， 或 者 是 单 层 结 
构 。Agent 能 够 通过 对 世界 状态 空间 表示 的 搜索 找到 从 当前 状态 到 目标 状态 的 一 条 路 径 ， 
从 而 决定 如 何 完成 其 目标 。 它 能 在 其 行动 之 前 找到 实现 其 目标 的 一 个 动作 序列 。 

这 个 问题 可 以 抽象 为 一 个 数学 问题 ， 在 一 个 有 向 图 中 找到 从 起 始 节点 到 目标 节点 的 一 
条 路 径 。 其 他 很 多 问题 都 可 以 映射 成 这 类 抽象 ， 所 以 考虑 这 个 层次 上 的 抽象 很 有 意义 。 本 
章 大 部 分 内 容 研 究 了 寻找 这 样 路 径 的 各 种 算法 。 

搜索 的 含义 是 指 Agent 内 在 的 计算 。 它 不 同 于 必须 要 有 动作 的 现实 世界 的 搜索 ， 例 
如 ， 寻 找 钥匙 、 举 起 垫子 等 。 它 也 不 同 于 网 络 上 的 信息 检索 。 这 一 章 中 所 研究 的 搜索 是 在 
内 部 描述 中 找到 一 条 到 达 目 标的 路 径 。 

搜索 的 思路 是 明确 的 : Agent 针对 一 个 问题 构造 出 一 个 可 能 的 局 部 解 的 集合 ， 可 以 检 
查 它们 是 否 是 最 终 解 或 者 可 以 导致 最 终 解 。 搜 索 就 是 反复 地 选择 局 部 解 。 直 到 找到 一 条 通 
往 目 标的 路 径 才 停止 ， 否 则 ， 就 会 在 所 有 可 能 的 方向 增加 一 条 弧 来 扩展 局 部 解 。 

搜索 是 大 部 分 人 工 智能 领域 的 基础 ， 当 Agent 遇 到 一 个 问题 时 ， 它 只 给 定 了 可 以 识别 
解 的 描述 ， 而 不 知道 解决 这 个 问题 的 具体 算法 ， 所 以 它 必须 搜索 问题 的 解 。 在 NP 完全 问 
题 中 ， 我 们 有 有 效 的 方法 来 识别 答案 ， 却 没有 有 效 的 方法 去 找到 答案 。 这 说 明 ， 在 许多 情 
况 下 ， 搜 索 是 解决 问题 的 必要 部 分 。 

人 们 经 常 能 够 通过 直觉 一 步 就 找到 很 难 的 问题 的 解 。 但是， 人 们 不 倾向 于 解决 普遍 问 
题 ， 相 反 ， 他 们 会 处 理 具体 的 问题 ,与 可 能 的 搜索 空间 相 比 ， 他 们 熟悉 这 些 问题 。 有 些 间 
题 中 不 存在 结构 ， 或 者 其 中 的 结构 与 物理 世界 不 相关 ， 这样 的 问题 人 们 很 难 解决 。 在 公 钠 
加 密 编 码 中 ， 搜 索 空间 清晰 明了 ， 解 的 验证 方法 也 已 给 出 ， 尽 管 如 此 ， 人 类 仍然 无 法 破 
fo 计算 机 也 不 能 在 现实 的 时 间 框 架 中 破解 ， 这 就 例证 了 搜索 的 困难 性 。 

搜索 的 困难 性 及 人 类 能 够 有 效 解决 一 些 搜索 问题 的 事实 ， 表明 计算 机 Agent 应 当 从 一 些 
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特例 中 拓展 新 知识 来 指引 它们 找到 解 。 超 出 搜索 空间 以 外 的 知识 叫做 启发 性 ( 式 ) 知 识 (hea- 
ristic knowledge) 。 本 章 以 评估 从 一 个 节点 到 一 个 目标 的 花费 的 形式 讲述 一 种 启发 式 知识 。 


3.2 状态 空间 


智能 行为 的 一 种 一 般 形式 就 是 状态 空间 (state space) 。 一 个 状态 (Cstate) 包 含 着 所 有 必 
备 的 信息 ， 以 用 来 预测 动作 结果 并 确定 是 否 是 目标 状态 。 状 态 空间 搜索 假设 如 下 : 

。 Agent 具有 状态 空间 的 完全 知识 ， 并 可 观察 自己 所 处 的 状态 ( 即 完 全 可 见 ) 。 

*。 Agent 具有 一 个 动作 集 ， 这 些 动作 有 已 知 的 确定 效果 。 

。 一 些 状态 是 目标 状态 ，Agent 想 要 到 达 其 中 一 个 目标 状态 ， 并 可 识别 目标 状态 。 

。 解 (solution) 就 是 一 个 动作 序列 ， 使 得 Agent 从 当前 状态 到 达 目 标 状 态 。 

【 例 3-1〗 图 3-1 显示 了 机 器 人 投递 域 及 寻找 从 一 个 位 置 到 达 另 一 个 位 置 的 一 条 路 径 
的 任务 。 这 可 以 抽象 为 一 个 状态 空间 的 搜索 问题 模型 ， 其 中 状态 就 是 那些 位 置 。 假设 
Aen i Al EOE 8-2-9845 Sk — 1-00 SAA BE BEET N. 那么 在 这 种 层次 的 
抽象 中 ,行为 就 是 指 相 邻 位 置 的 明确 的 移动 。 


peat | may | nn [is | on | nat | 


ol31 0129 ol27 0125 ol23 0121 0119 












ts o101 a103 ol05 ol07 0109 alll 


让 
= EE 


图 3-1 标明 感 兴趣 位 置 的 投递 机 器 人 域 


例如 ， 机 器 人 在 房间 r103 外 ， 即 图 中 0103 位 置 处 ， 目 标 是 到 达 房 间 r123。 解 就 是 使 
机 器 人 到 达 r123 的 动作 序列 。 < 

【 例 3-2) ERRU F. BEILI EA ETURA R NIL. E 
这 种 情况 下 ， 状 态 包含 : 机 器 人 的 位 置 、 机 器 人 正在 投 送 的 包 玫 以 及 其 他 包 训 的 位 置 。 机 
器 人 可 能 做 出 的 动作 包括 : BA. RSAC. RAMEE. 
目标 状态 则 可 能 是 将 一 些 特定 包 右 送 达 预 期 的 位 置 。 因 为 我 们 不 考虑 机 器 人 或 者 其 他 一 些 
包 囊 的 位 置 ， 所 以 可 能 会 出 现 很 多 目标 状态 。 

注意 上 述 描述 忽略 了 很 多 细节 ， 例 如 ， 机 器 人 怎样 携带 包 囊 (这 会 影响 到 它 是 否 能 携 
带 其 他 包 庄 )， 机 器 人 所 剩 的 电量 ， 包 于 是 否 易 碎 或 者 损毁 ， 以 及 地 板 的 颜色 。 我 们 不 把 
它们 作为 状态 空间 的 一 部 分 ， 而 假定 这 些 细节 与 目前 所 研究 的 问题 无 关 。 < 

【 例 3-3] 在 一 个 指导 系统 中 ， 一 个 状态 可 能 包含 着 学 生 知 道 的 主题 集合 。 动 作 就 是 
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教授 一 门 特定 课程 ， 教 学 行为 结果 可 能 是 学 生 弄 懂 课 程 的 主题 ， 因 为 学 生 知 道 这 些 主题 是 
他 们 掌握 课程 的 先决 条 件 。 目 标 就 是 学 生 能 够 懂得 一 些 特 定 的 主题 集合 。 

如 果 教 学 的 效果 也 取决 于 学 生 的 能 力 ， 那 么 这 个 细节 信息 也 必须 作为 状态 空间 的 一 部 
分 。 如 果 学 生 正在 做 什么 并 不 影响 行为 的 结果 ， 也 不 影响 目标 是 否 能 达到 ， 那么 我 们 就 不 
必 为 它 建 模 。 < 

一 个 状态 空间 问题 (state-space problem) 由 以 下 部 分 组 成 : 

。 一 个 状态 集 ; 

。 一 个 特定 状态 集合 ， 称 为 初始 状态 Cstart state); 

。 每 一 个 状态 中 Agent 可 执行 的 一 个 动作 集 ; 

。 一 个 动作 函数 (action function)， 给 定 一 个 状态 和 一 个 动作 ， 返 回 一 个 新 的 状态 ， 

。 一 个 目标 状态 集 ， 通常 被 定义 为 布尔 函数 ，goal(s)， 当 ;为 目标 状态 时 ， 这 个 函 

数 返回 值 为 真 。 

。 用 于 检验 一 个 可 接受 解 的 质量 的 标准 。 例 如 ， 只 要 能 让 Agent 到 达 目 标 状 态 的 任 
意 一 个 行为 序列 都 是 可 接受 的 解 ， 或 者 动作 是 有 花费 的 ，Agemnt 可 能 被 要 求 找到 
最 小 总 花费 的 解 ， 这 样 的 解 叫做 最 优 (optimal) 解 。 或 者 说 ， 比 最 优 解 花费 多 10% 
. 以 内 的 解 都 是 令 人 满意 的 。 

这 种 框架 在 接 下 来 的 章节 中 会 进一步 扩展 讲解 ， 例 如 以 下 情况 ，Agent 可 以 发 握 状 态 
的 内 在 特征 、 状 态 不 能 完全 可 观察 (例如 ， 机 器 人 不 知道 包 于 在 哪 ,或 者 老师 不 知道 学 生 
的 能 力 ) ， 或 者 动作 是 随机 的 (例如 ， 机 器 人 有 可 能 跑 过 了 目标 位 置 ， 或 者 学 生 可 能 不 学 习 
被 教 的 主题 ) ， 或 者 不 仅仅 是 到 达 目 标 状态 ， 还 涉及 奖惩 时 存在 着 复杂 的 偏好 ， 等 等 。 


3.3 图 搜索 


在 这 一 章 中 ， 我 们 将 一 般 搜索 机 制 抽 象 表示 为 在 有 向 图 中 的 路 径 搜 索 。 要 解决 一 个 问 
题 ， 首 先 定义 潜在 的 搜索 空间 ， 然 后 将 搜索 算法 应 用 于 其 中 。 许 多 问题 求解 的 任务 都 可 以 
转化 为 在 图 中 寻找 路 径 的 问题 。 图 搜索 提供 了 抽象 的 一 个 合适 层次 ， 用 这 种 抽象 ， 可 以 研 
究 独立 于 特定 领域 的 简单 问题 求解 。 

一 个 (有 向 ) 图 包含 一 个 节点 集 及 一 个 节点 间 的 有 向 弧 集 。 其 思路 是 找到 一 条 沿 着 这 些 
弧 从 起 始 节 点 到 目标 节点 的 路 径 。 

因为 将 问题 表示 为 图 不 止 一 种 方式 ， 所 以 抽象 很 重要 。 这 一 章 中 的 例子 都 是 有 关 状 态 
空间 搜索 ， 节 点 代表 状态 ， 弧 代表 动作 ， 以 后 的 章节 中 会 讨论 用 图 表示 问题 的 不 同 搜索 
方式 。 


形式 化 图 搜索 


一 个 有 向 图 (graph) 包 括 : 

。 一 个 节点 (nede) 集 合 Ni 

。 一 个 节点 的 有 序 对 集合 A， 叫 做 弧 (arc)。 

在 这 个 定义 中 ,节点 可 以 是 任何 东西 。 定 义 的 实质 是 约束 弧 是 节点 的 有 序 对 。 可 以 有 
无 限 多 的 节点 和 弧 。 我 们 并 没有 假设 图 完全 明确 地 表示 出 来 ， 我 们 仅 需 要 有 一 个 进程 根据 
需要 产生 节点 和 弧 。 

Min, m)e— ZAM n HY HM Coutgoing arc) 和 一 条 至 m 的 入 弧 Cincoming arc). 
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如 果 有 一 条 从 节点 m 到 节点 m AMAR, CRE, mrCA, WA zw 就 是 节点 mw HB 
居 (neighbor)。 注 意 到 两 点 是 邻居 不 意味 着 对 称 ， 因 为 ws 是 翅 的 邻居 并 不 意味 着 nn 就 必须 是 
的 邻居 。 例 如 ， 弧 可 能 被 标记 (able) 为 使 Agent 从 一 个 状态 到 达 另 一 个 状态 的 动作 。 

一 条 从 节点 = 到 节点 如 的 路 径 (path) 是 一 个 节点 序列 《x0， ms ys me), WH s=m, 
gom>, (ni, n) EA, 即 对 于 每 一 个 i 都 有 从 -1 到 x 的 弧 。 有 时 将 路 径 看 做 弧 的 序列 
很 有 用 ， (nos nis 《7 Mads ***s 《1 Ng?» 或 者 是 这 些 弧 的 标记 序列 。 

一 个 环 (cycle) 是 一 条 起 点 和 终点 相同 的 非 空 路 径 ， 即 一 个 环 是 一 条 路 径 《no，n， 
M25 "142)，740 二 4 且 上 了 关 0。 一 个 有 向 图 如 果 没 有 任何 环 就 称 作 有 向 无 环 图 (directed 
acyclic graph, DAG)。 这 可 能 应 该 是 一 个 无 环 的 有 问 图 ， 因 为 它 是 有 向 图 但 是 惟 好 无 环 ， 
而 不 是 无 环 图 正好 有 向 ， 但 是 有 向 无 环 图 (DAG) 比 无 环 有 向 图 (acyclic directed graph, 
ADG) 听 起 来 更 好 一 些 。 

树 (tree) 就 是 一 个 有 向 无 环 图 ， 其 中 有 一 个 节点 没有 人 弧 ， 其 他 每 一 个 节点 都 正好 有 
ZAM. WAAMKIA BOR AS HR Croot) 4 A. BAT HL FAY eaves) Fi. 

要 将 问题 编码 为 图 ,一 个 节点 集 叫 做 起 始 节 点 (start node) ， 另 一 个 节点 集 叫 做 目标 
节点 (goal node) 。 解 Csolution) 就 是 从 起 始 节点 到 目标 节点 的 一 条 路 径 。 

有 时 会 有 一 个 与 弧 相 关 的 花费 (cost)， 是 一 个 正 数 ， 我 们 将 弧 《n;， ny) 的 花费 记 作 
cost(《n:，7w))， 弧 的 花费 会 引起 整个 路 径 的 花费 。 

给 定 一 条 路 径 p= nos, Nis Nes s Ny?» 路 径 的 花费 就 是 路 径 上 弧 的 花费 之 和 : 

cost (p) = cost Cino sm )) + cost (Any yng) + e- cost (na sm >) 

最 优 解 (optimal solution) 是 最 低 花 费 的 解 之 一 。 也 就 是 说 ， 如 果 存 在 一 条 从 起 始 节 点 到 
目标 节点 的 路 径 p， 而 不 存在 其 他 从 起 始 节 点 到 目标 节点 的 路 径 p' 使 得 cost(p')<cost(p), 
那么 这 条 路 径 就 是 最 优 路 径 。 

【 例 3-4] 再 来 看 图 3-1 中 描述 的 投递 机 器 人 寻找 从 位 置 0103 到 位 置 r123 的 路 径 问 
题 。 在 这 个 图 中 ， 感 兴趣 位 置 已 经 标注 。 为 了 简化 问题 ,我 们 只 考虑 加 粗 字 体 指 示 的 位 置 
并 且 一 开始 就 限定 机 器 人 移动 的 方向 。 图 3-2 显示 了 结果 图 ， 在 这 个 图 中 节点 代表 位 置 ， 





3-2 ， 带 有 弧 花费 的 投递 机 器 人 域 的 图 
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弧 则 表示 机 器 人 在 位 置 间 的 可 能 做 出 的 每 一 步 移 动 ， 生 每 条 弧 线 上 标示 出 了 从 一 个 位 置 到 
下 一 个 位 置 的 花费 。 , 

在 这 个 图 中 、 节 点 集合 N= mail, ts, 0103, 63, 0109, =}, MRA A= (Cts, 
mail), (0103, ts}, (0103, 63), «0103, 0109). ==}. Fi 0125 RAAB. WA ts 
有 一 个 相 邻 节点 ， 即 ,mci。 节 点 0103 有 三 个 相 邻 节点 ， 即 ts, 53 和 0109, 

这 样 从 o103 到 7123 就 有 三 条 路 径 : 

(0103 .0109,0119 ,0123.7r123> 

(0103 .63,64,0109 ,0119,0123.7r123) 

(0103 ,63,61,62,64,0109.0119,0123,7123) 

如 果 0103 是 起 始 节 点 ，rl123 是 目标 节点 ， 那 么 这 三 条 路 径 都 是 图 搜索 问题 的 解 。 < 

很 多 问题 中 搜索 图 没有 了 明确 给 出 ， 要 根据 需要 动态 架构 。 所 有 搜索 算法 都 要 求 遵 循 的 
原则 是 : 从 一 个 节点 生成 它 的 邻居 ( 子 节点 )， 然 后 确定 它 是 否 是 目标 节点 。 

一 个 节点 的 前 向 分 支 系数 (forward branching factor) 是 指 离 和 天 该 节点 的 颖 (出 弧 ) 的 数 
目 ， 而 它 的 后 向 分 支 系 数 (backward branching factor) 则 是 指 进 入 该 节点 的 弧 ( 人 弧 ) 的 数 
目 。 这 些 系数 提供 了 图 的 复杂 度 的 测量 标准 。 当 我 们 讨论 搜索 算法 的 时 间 和 空间 复杂 度 
时 ， 假 定 分 支 系数 最 高 值 ( 自 上 而 下 ) 由 一 个 常数 来 界定 。 

【 例 3-5) 在 图 3-2 中 ， 节 点 0103 的 前 向 分 支 系数 是 3， 即 从 0103 有 三 条 出 弧 。 节 点 
0103 的 后 向 分 支 系数 是 0， 即 无 人 弧 指 向 节点 0103, mail 前 向 分 支 系数 为 0， 后 向 分 支 系 
数 为 1。 节点 53 前 向 分 支 系数 为 2， 后 向 分 支 系数 为 1。 

分 支 系 数 很 重要 ， 因 为 它 是 决定 图 大 小 的 关键 因素 。 如 果 每 一 个 节点 前 向 分 支 系数 是 
b， 生 是 树 型 图 ， 那么 该 图 中 有 如 个 节点 ， 当 前 节点 离 任意 节点 的 弧 的 段 数 是 n, a 


3.4 一 个 通用 搜索 算法 


这 一 节 描述 在 图 中 寻找 解 路 径 的 一 个 通用 算法 。 这 个 算法 独立 于 任何 特定 的 搜索 策略 
和 特定 的 图 。 

通用 搜索 算法 背后 的 直观 理念 就 
是 给 定 一 个 图 、 一 个 起 始 节点 集 和 一 key 
个 目标 节点 集 ， 循 序 渐进 地 从 起 始 节 
点 探索 路 径 。 这 要 通过 维持 已 经 探索 BH i a O 
过 的 从 起 始 节点 开始 的 路 径 的 边界 © PO 
(或 外 围 ) 来 实现 。 边 界 包含 能 构成 从 eS 
起 始 节点 到 目标 节点 的 初始 部 分 的 所 z 
有 路 径 。( 见 图 3-3， 边 界 就 是 指 通 向 。 已 扩 展 节点 O Q>O 
灰色 节点 的 那 组 路 径 .) 最 初 ， 边 界 包 ST E 
FEME AIT da K FÈ i I G IR ae P Sy A 
凡 的 (不 重要 的 ) 路 径 。 随 着 搜索 的 深 PS a atte 
入 ， 边 界 扩展 到 未 扩展 节点 ， 最 终 到 
达 目 标 节点 。 为 了 扩大 边界 ,搜索 者 @ XX 
继续 挑选 ， 从 边界 去 除 路 径 ， 从 最 新 
节点 出 弧 扩 展 新 的 路 径 并 将 这 些 新 路 
径 加 入 边界 。 搜 索 策略 就 界定 了 在 每 BSS MRA 
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一 步 中 需要 选择 哪些 边界 要 素 。 
图 3-4 中 给 出 了 通用 搜索 算法 。 最 初 . 边界 是 一 组 从 起 始 节点 开始 的 空 路 径 。 每 一 步 中 ， 
算法 通过 从 边界 去 除 路 径 4(mw，…，% 而 继续 推进 边界 。 如 果 goal(s, ACH w 是 目标 节 
点 )， 它 就 找到 了 解 并 返回 已 找到 的 路 径 ， 即 (5,，…，s5:》。 否 则 就 通过 增加 一 条 出 弧 来 寻找 
s 的 邻居 。 从 而 扩展 路 径 。 因 为 对 于 5 的 每 一 个 邻居 s， 路 径 《ss ，…，si，5) 都 会 加 入 到 边 
界 中 。 这 一 步 叫做 扩展 (expanding) 节 点 szo 
这 个 算法 有 一 些 要 注意 的 特征 : 
。 13 行 中 路 径 的 选择 是 不 确定 
性 的 。 路 径 的 选择 会 影响 效 
率 ，5.2.2 节 中 “不 确定 性 选 
择 ” 处 有 更 多 关于 路 径 第 选 使 
用 的 详细 描述 。 特 定 的 搜索 策 
略 决定 选择 哪 一 条 路 径 。 


















1; procedure Search(G, S, goal) 
2; Inputs 

3: G: 具有 NN 个 节点 和 A 条 边 的 图 

4: S: 开始 节点 集 

5r goal: 布尔 状态 函数 

6; Output 

7: KS 的 一 个 成 员 到 goal WEA HRW RM — AE, 
8: 或 者 如 果 无 解 路 径 则 了 


9; Local 
。 15 行 中 的 return 应 视 为 临时 | 10, wh. 路径 集 合 
返回 ， 通过 继续 进行 的 16 行 a EP 
指令 可 得 出 男 一 条 到 达 目 标的 i E sie (S55 =, sifrom Frontier 
搜索 路 径 。 14; if goalts, ) then 
‘`g ja 15: return{s,, ‘ts sa) 
i 如 果 该 过 程 返 回 |， 则 不 存在 16; TARDE E E ATAA isen Sey 5)? Cn SYEA} 
解 ( 或 者 即使 再 次 试验 进行 验 return L 





证 也 无 其 余 解 ) 。 
* 这 个 算法 只 能 用 来 测试 从 边界 
挑选 的 路 径 是 否 能 终止 在 目标 节点 ， 而 不 是 测试 任意 加 入 到 边界 的 路 径 。 对 此 有 
两 点 主要 原因 。 有 时 边界 上 的 节点 到 目标 节点 的 弧 花 费 很 大 ， 搜 索 就 不 应 当 通过 
这 条 弧 返 回路 径 ， 因 为 可 能 存在 更 低 花 费 的 路 径 。 当 要 求 最 低 花 费 路 径 的 时 候 ， 
这 就 显得 尤为 重要 了 。 第 二 点 原因 是 确定 一 个 节点 是 目标 节点 的 代价 很 大 。 
如 果 选 择 的 路 径 不 在 目标 节点 处 终止 ， 并 且 终 止 节点 没有 邻居 ， 那 么 扩展 路 径 意 味 着 
去 除 路 径 。 这 种 结果 是 合理 的 ， 因 为 这 条 路 径 不 能 看 做 是 从 起 始 节 点 到 目标 节点 的 路 径 的 
一 部 分 。 


3.5 无 信息 搜索 策略 


一 个 问题 给 定 了 图 和 目标 ， 但 并 没有 给 出 从 边界 中 选择 哪 条 路 径 。 这 是 搜索 策略 的 任 
务 , 一 个 搜索 策略 指定 如 何 从 边界 中 选择 路 径 。 通 过 改变 在 边界 中 选择 路 径 的 实现 方法 从 
而 可 以 得 出 不 同 的 搜索 策略 。 

这 部 分 介绍 了 三 种 不 考虑 目标 节点 位 置 的 所 谓 无 信息 搜索 策略 Cuninformed search 
strategy) 。 直 觉 上 ， 这 些 算 法 不 关心 它们 要 到 哪里 去 ， 直 到 找到 目标 节点 并 报告 成 功 。 


3.5.1 深度 优先 搜索 


第 一 个 策略 是 深度 优先 搜索 (depth-first search) 策 略 。 在 深度 优先 搜索 中 , 边界 的 动 
作 像 一 个 先进 后 出 的 堆栈 (stack) 。 这 些 元 素 被 逐次 地 压 人 栈 中 。 在 边界 中 被 选择 并 撤销 的 
节点 肯定 是 最 后 一 个 人 栈 的 元 素 。 


图 3-4 通用 图 搜索 算法 
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【 例 3-6) 考虑 图 3-5 中 的 树 形 图 ， 假 设 初始 节点 是 树 的 根 ( 在 顶部 的 节点 )， 节 点 从 
左 到 右 排 序 ， 所 以 最 左边 的 邻居 最 后 
被 压 人 栈 中 。 在 深度 优先 搜索 中 ， 东 
点 扩展 的 方向 并 不 依赖 于 目标 节点 的 
位 置 。 图 3-5 中 ,我 们 将 首 批 扩展 的 
16 个 节点 用 数字 标记 出 来 了 。 阴 影 节 
点 表示 这 16 步 检索 完成 后 ， 边 界 路 径 
上 的 最 终 节点 。 

注意 最 开始 的 6 个 节点 是 如 何在 
单一 的 路 径 上 扩展 的 。 第 6 个 节点 没 
有 邻居 ， 因 此 ， 下 一 个 要 扩展 的 节点 
是 距离 它 最 近 的 且 有 尚未 扩展 的 子 节 
点 的 父 节 点 的 子 节点 。 < 

利用 堆栈 来 实现 边界 会 导致 使 用 图 3-5 深度 优先 搜索 中 节点 的 扩展 顺序 
深度 优先 的 方式 得 到 路 径 一 一 在 查找 一 条 路 径 到 头 之 后 再 尝试 另 一 个 分 支 路 径 。 这 种 方法 
叫做 回溯 (backtracking) : 在 每 一 个 节点 ， 算 法 会 先 选 择 每 个 节点 上 第 一 条 可 选择 的 路 径 
搜索 下 去 ， 当 执行 完 第 一 个 选择 的 整个 路 径 它 会 回溯 到 下 一 个 可 选 的 路 径 。 一 些 路 径 可 能 
是 无 限 的 ， 比 如 当 图 中 有 环 或 者 有 无 限 多 节点 时 ， 这 样 深度 优先 搜索 也 许 永 远 不 会 停止 。 

这 种 算法 没有 明确 规定 将 邻居 压 人 堆栈 的 顺序 ， 并 用 堆栈 代表 了 边界 。 算 法 的 效率 就 
跟 这 个 顺序 相关 。 

【 例 3-7] 考虑 图 3-2 中 的 从 房间 0103 出 发 的 深度 优先 搜索 ， 唯 一 的 目标 节点 是 
r123。 在 这 个 例子 里 ， 边 界 表示 为 一 个 路 径 列 表 ， 栈 项 作为 列表 的 开始 部 分 。 

最 初 ， 边 界 包含 平凡 路 径 (0103)。 

下 一 步 ， 边 界 包 含 了 后 面 的 路 径 ; [40103, zs)，(0103，63);，《0103，o109)]。 

接 下 来 ， 会 选择 路 径 (o103， 公 》， 因 为 它 位 于 栈 顶 。 这 条 路 径 就 从 边界 中 删除 并 用 一 
段 狐 扩展 它 后 再 替换 它 ， 这 样 边 界 就 变 为 : [《40103, ts, mail), (0103, b3), (0103, 
0109) |. 

EPR, B— RRI (0103, ts, mail hme RFRA Ba A 
集 所 替代 ， 但 由 于 mail 节点 没有 邻居 ， 所 以 该 集合 是 空 的 。 因 此 边界 变 为 ; [(0103, 
b3), (0103，0109》]。 

在 这 个 阶段 ， 路 径 (o0103，653) 在 堆栈 的 顶部 。 注 意 一 个 事实 ， 当 深度 搜索 已 经 遍历 了 
所 有 的 从 姜 出 发 的 路 径 ( 这 里 只 有 一 条 )， 它 就 要 回溯 到 扒 栈 的 下 一 个 元 素 。 接 下 来 ,选择 
《ol103，23)， 并 用 新 弧 的 扩展 路 径 蔡 换 它 ， 边 界 变 为 : [(0103, 63, 61), (0103, 63, 
b4), <0103, 0109)]。 

然后 从 边界 中 选择 lo103，63，61) 并 扩展 ， 边 界 变 为 : [(0103, b3, bl, c2), (0103, 
b3, bl, 62), (0103, 63, b4), (0103, 0109)]. 

现在 第 一 条 路 径 就 从 边界 中 选 出 来 了 ， 并 通过 新 弧 扩 展 出 来 , 产生 边界 路 径 : 
[(ol03, 635.81). ea c3)» (0103, 63s bl» cB, cl). (0103, 63, bl» 62)». (e103, 63, 
b4), (0103, 0109) ], 

注意 节点 c3 没有 邻居 ， 因 此 搜索 回溯 到 最 近 的 尚未 造访 的 节点 ， 即 cl。 < 

假定 (no，…，xn) 是 在 边界 中 被 选 定 的 路 径 ， 边界 的 每 一 个 其 他 元 素 都 表示 为 
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(nos 8， m)， 其 中 i<<n， 节 点 m 是 节点 的 邻居 。 它 沿 着 多 个 出 弧 确 定 的 所 选 路 
径 ， 然 后 恰好 有 一 个 额外 的 点 。 

为 了 更 好 地 理解 深度 优先 的 复杂 度 ( 参 见 下 面 “ 各 种 算法 性 能 对 比 ”的 内 容 )， 考 虑 使 用 
家 族 树 来 类 比 ， 一 个 节点 的 邻居 对 应 的 是 树 中 的 子 节点 。 树 的 根 是 起 始 节点 ， 树 的 分 支 对 
应 的 是 从 起 始 节点 开始 的 路 径 。 考 虑 边界 顶端 的 路 径 的 最 终 节点 ,边界 的 其 他 元 素 是 这 个 
节点 父 节点 的 其 他 子 节点 ， 对 应 就 是 “ 坡 报 ” “伯伯 ”， 等 等 。 如 果 分 支 系数 是 六 列表 的 
第 一 个 元 素 的 长 度 是 元 那么 最 多 有 nX (5 一 1) 个 边界 的 其 他 元 素 。 这些 元 素 对 应 着 每 一 
个 节点 都 有 2 一 1 个 可 选 路 径 。 因 此 ， 对 于 深度 优先 搜索 ， 使 用 的 室 间 开销 与 从 起 始 节点 到 
某 一 个 节点 的 路 径 长 度 虽 线性 关系 。 


各 种 算法 性 能 对 比 


各 种 算法 (包含 搜索 算法 ) 可 以 按 以 下 几 项 进行 比较 : 
。 时 间 开 销 

。 空间 开销 

。 结果 的 质量 以 及 准确 性 


时 间 开 销 、 空 间 开 销 以 及 结果 的 准确 性 都 是 算法 输入 的 函数 。 计 算 机 科学 家 们 所 探讨 
的 渐进 复杂 度 (asymptotic complexity)， 规 定 了 时 空 开销 是 如 何 随 着 算法 的 输入 量 的 增加 
而 增长 的 。 算 法 对 于 输入 大 小 n 有 时间 ( 或 空间 ) 的 复杂 度 函 数 O(f(n)),. 读 作 “ 大 
Of(n)”， 这 里 f(n) 是 关于 ni 的 函数 ， 如 果 存 在 常数 no 和， 对 于 所 有 的 nn 二 no， 都 有 算法 
的 时 间或 空间 开销 少 于 kX 了 ln)。 这 个 函数 的 最 常见 形式 是 指数 函数 ， 如 2"、3”"、1. 015”; 
ERRER, wn n, n, n; 或 对 数 函 数 ， 如 logn。 一 般 来 说 ， 指 数 函 数 算法 比 多 项 
式 函 数 算法 复杂 度 增长 更 快 ， 相 应 的 ， 多 项 式 函 数 算法 比 对 数 函 数 增长 的 快 。 

当 输 入 大 小 为 到 时， 如 果 存 在 常数 mm Hk 对 于 所 有 的 二 no 都 有 算法 的 时 间或 空 
间 开 销 大 于 kXf(n)， 就 称 算法 有 时 间或 空间 复杂 上 度 Q(f(n))。 一 个 算法 如 果 有 复杂 度 
O(n) 和 QC(n)， 那 么 它 就 有 了 时 间或 空间 的 复杂 度 @(f(n))。 通 常情 况 下 ， 不 能 说 一 个 算法 
的 复杂 度 是 @(f(n))， 因 为 大 多 数 算法 输入 不 同 ， 时 间 开 销 也 不 同 因此 ， 当 比较 算法 
时 ， 必 须 确定 问题 分 类 。 

当 通 过 时 间 、 空 间或 准确 性 菜 个 方面 衡量 出 算法 A 比 算法 B 更 优 ， 则 意味 着 : 

。 A 最 坏 的 情况 比 B 的 最 坏 的 情况 好 ; 

。 在 实践 中 , 全 能 更 好 和 运行。 或 者 在 考虑 典型 性 问题 的 平均 情况 时 ， 人 4 运行 的 平均 

情况 比 B 好 ; 

。 由 你 描述 哪 类 问题 使 用 算法 A 比 B 好 ， 所 以 算法 的 优 劣 取决 于 要 解决 的 问题 ; 

。 对 于 任何 的 问题 ，A 都 比 B 好 。 

最 坏 情 况 的 渐进 式 复杂 度 往往 最 容易 显现 ， 但 它 通常 是 最 没 用 的 。 如 果 很 容易 确定 所 
给 定 问题 是 哪 一 类 ， 通 过 对 问题 的 特征 分 类 来 决定 哪 种 算法 更 优 是 最 有 用 的 方法 。 不 幸 的 
是 ， 这 种 特征 分 类 很 难 。 

通过 对 问题 的 特征 分 类 来 确定 哪 种 算法 更 优 ， 可 以 在 理论 土 通过 数学 方法 或 在 经 验 上 
通过 建立 程序 来 实现 。 这 些 数 学 定理 的 有 效 性 只 能 依赖 于 作为 基础 的 假设 。 相 似 地 ， 基 于 


经 验 的 程序 验证 只 能 在 测试 用 例 和 算法 实际 的 实现 方法 中 有 效 。 我 们 很 容易 通过 举 个 反例 


来 反驳 一 种 算法 对 某 类 问题 更 优 的 猜想 ,但 却 很 难 证 明 这 种 猜想 。 
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如 果 第 一 个 分 支 搜索 就 得 到 一 个 解 ， 那 么 时 间 复 杂 度 就 与 路 径 的 深度 呈 线 性 关系 ， 它 
只 考虑 这 条 路 径 上 的 元 素 ， 以 及 它 的 兄弟 姐妹 。 最 坏 情况 的 时 间 复 杂 度 是 无 限 大 。 即 使 存 
在 一 个 解 ， 如 果 这 个 图 是 无 限 的 或 者 循环 的 ， 深 度 优先 搜索 会 陷入 无 限 的 分 支 然后 永远 找 
不 到 解 。 如 果 图 是 有 限 的 树 ， 前 向 分 支 系数 最 大 是 5， 深度 为 nn， 那么 最 坏 情 况 的 时 间 复 
杂 度 是 OCH"), 

[B 3-8] 考虑 修改 前 面 的 图 ， 让 Agent 在 位 置 之 间 移动 更 自由 ， 得 出 图 3-6 ， 一 条 无 
RRIA ts JI mail, JA mE 六， 再 返回 mxai1， 如 此 循环 往复 。 显 然 ， 深 度 优先 搜 
索 将 沿 着 这 条 路 径 永 远 搜 索 下 去 ， 而 不 会 考虑 到 53 或 者 0109 等 可 选择 路 径 。 前 5 次 反复 


使 用 深度 优先 路 径 搜索 算法 得 到 的 边界 如 下 : 
[(0103)] 


[<0103,¢s) (0103363) ;0103,0109)] 

[Co103 ,18 mail) (0103, ts ,0103), (0103,63), (0103 ,0109)] 

[<0103.¢s,mail ts) ,<0103,ts ,0103) ,C0103,63),(010330109)] 

[40103 ts smail sts mail} ,{0103,ts,mail ,ts,0103).(0103,t8,0103) ;40103,63) .0103,0109) | 


Cas) Ca) 





Crai JC 
图 3-6 投递 机 器 人 域 的 有 环 图 。Xe>Y RRA X a YARIM MY SX 也 有 一 段 弧 ， 
即 (X, YEARY, XEA 
可 以 通过 不 考虑 有 环 路 径 来 优化 深度 优先 搜索 。 < 
因为 深度 优先 搜索 对 邻居 加 入 边界 的 顺序 敏感 ， 这 一 点 必须 仔细 对 待 。 这 个 顺序 可 以 
是 静态 的 (这 样 邻 居 的 顺序 固定 ?或 者 是 动态 的 (邻居 的 顺序 由 目标 节点 决定 ) 。 


深度 优先 搜索 适用 的 条 件 ， 
。 空间 是 被 限定 的 ; 
p ， 存在 许多 解 ， 可 能 路 径 很 长 ， 尤 其 当 几 乎 所 有 路 径 都 导致 一 个 解 时 ; 
83 + 节点 邻居 的 压 栈 的 顺序 可 以 调整 ， 以 便 在 第 一 次 尝试 中 就 找到 解 。 
深度 优先 搜索 不 适用 的 条 件 ， 


。 当 图 是 无 限 的 或 者 图 中 有 环 的 时 候 ， 有 可 能 陷 人 无 限 的 路 径 中 ; 
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。 解 路 径 存 在 于 隐 项 的 深度 ， 因 为 在 这 种 情况 下 可 能 要 搜索 很 多 条 长 路 径 才 能 发 现 
短路 径 结 果 。 
深度 优先 搜索 是 许多 其 他 搜索 算法 的 基础 ， 如 选 代 搜 索 。 


3.5.2 宽度 优先 搜索 


在 宽度 优先 搜索 (breadth-first search) 中 ， 边 界 是 用 一 个 先进 先 出 (FIFO) 队 列 实现 的 。 
因此 ， 最 开始 从 边界 中 选择 的 路 径 是 最 早 进入 队列 的 。 

这 个 方法 意味 着 从 初始 节点 出 发 的 路 径 按 照 弧 数目 多 少 的 顺序 依次 产生 。 在 每 一 个 阶 
段 中 ， 选 择 弧 最 少 的 那 条 路 径 。 

【 例 3-9] 来 看 图 3-7 中 的 树 形 图 。 
假定 起 始 节点 在 顶部 。 在 宽度 优先 搜 
索 中 ,节点 扩展 的 顺序 与 目标 节点 的 
位 置 无 关 ， 这 与 深度 优先 搜索 相同 。 
最 开始 搜索 的 16 个 节点 的 扩展 顺序 已 
经 在 图 中 标记 出 来 了 。 在 最 开始 扩展 
的 16 步 完成 后 ， 阴 影 节点 就 是 多 条 路 
径 的 末端 ， 并 组 成 了 边界 。 4 

【 例 3-10] 考虑 图 3-2 从 0103 的 
宽度 优先 搜索 。 唯 一 的 目标 节点 是 
rl23。 最 开始 ， 边 界 是 [4o103)]。 然 
后 经 过 o103 的 邻居 得 到 扩展 的 边界 ， 


EP[<o103, ts), (0103, 63), (0103, 图 3-7 宽度 优先 搜索 中 节点 的 扩展 顺序 
0109)]。 这 些 都 是 o103 的 一 条 出 弧 所 指向 的 节点 。 下 面 选 择 的 三 条 路 径 是 4o103，zts)， 
(0103, 63), (0103, 0109), PBR. 边界 扩 展 为 : (40103, ts, mail), (0103, 63, 


bl), (0103, b3, b4), (0103, 0109, o111), (0103, 0109, 0119)]. 

这 些 路 径 都 包含 有 两 段 弧 ， 并 都 始 于 0103。 经 过 下 一 步 的 边界 节点 选择 和 扩展 ， 得 到 
新 的 五 条 路 径 ， 这 时 边界 包括 的 从 0103 出 发 的 路 径 都 含有 三 段 统 。 记 作 : [ol03，23， 
bl, c2), (0103, 63, bl, b2}, (0103, b3, b, 0109), (0103, 0109, 0119, storage), 
(0103, 0109, 0119, 0123)]. 

注意 到 边界 的 每 一 条 路 径 都 有 近似 相等 的 弧 数 。 对 于 宽度 优先 搜索 ,通常 边界 中 路 径 
的 弧 数 最 大 相差 1 条 。 

假定 搜索 的 分 支 系 数 是 6。 如 果 边 界 的 第 一 条 路 径 包 含有 段 弧 ， 那么 边界 中 就 至 少 有 
b”! 个 节点 。 所 有 的 这 些 路 径 包含 nn 或 者 n 十 1 Be. Ak, 根据 到 达 目 标 节点 弧 数 最 少 的 
那 条 路 径 上 的 弧 数 ， 空 间 和 时 间 复 杂 度 呈 指 数 级 增长 。 无 论 如 何 ， 这 个 方法 可 以 保证 只 要 
有 解 就 能 找到 ， 并 且 是 最 少 弧 的 解 。 

宽度 优先 搜索 适用 于 ， 

。 不 存在 空间 问题 ; 

。 想 找 最 少 弧 的 路 径 ; 

。 可 能 有 很 少 的 解 ， 但 是 至 少 有 一 个 短路 径 解 ; 

。 可 能 存在 无 限 的 路 径 ， 因 为 它 会 遍历 所 有 的 搜索 空间 ， 即 使 是 无 限 的 路 径 。 

这 个 算法 并 不 适用 于 所 有 的 路 径 都 很 长 ， 或 者 有 一 些 可 用 的 启发 知识 的 情况 。 因 为 空 
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间 复 杂 度 很 大 ， 所 以 它 并 不 常用 。 
3.5.3 最 低 花 费 优先 搜索 


当 路 径 的 花费 与 弧 有 关 时 ， 我们 常常 想 找 到 总 花费 最 小 的 路 径 。 例如， 对 于 一 个 投递 
机 器 人 ， 花 费 可 能 是 两 位 置 之 间 的 距离 ， 我 们 需要 总 距离 最 短 的 那 条 解 路 径 。 花 费 也 可 能 
是 机 器 人 按照 弧 实 施 动作 所 需要 的 各 种 资源 。 一 个 指导 系统 的 花费 可 能 是 学 生 所 需要 的 时 
间 和 精力 。 在 每 一 种 情况 下 ， 搜 索 者 都 试图 找到 最 低 花费 的 解 路 径 来 达到 目标 。 

目前 为 止 考虑 的 搜索 算法 不 能 保证 找到 最 低 花费 的 路 径 ， 他 们 完全 没有 使 用 弧 花 费 的 
任何 信息 。 宽 度 优先 搜索 首先 找到 弧 数 最 少 的 路 径 ， 但 这 未 必 是 最 少 花 费 的 路 径 。 

最 简单 的 能 保证 找到 最 低 花 费 路 径 的 搜索 方法 与 宽度 优先 搜索 算法 相似 。 不 同 的 是 ， 
它 是 寻找 最 低 花 费 的 路 笃 ， 而 不 是 通过 扩展 路 径 找 最 少 弧 数 的 路 径 。 这 是 通过 把 边界 作为 
一 个 由 花费 函数 排序 的 优先 级 队列 来 实现 的 。 

【 例 3-11) 看 图 3-2， 考 虑 图 中 从 0103 开始 的 最 低 花 费 优 先 搜索 。 唯 一 的 目标 节点 是 
门 23。 这 个 例子 中 ， 路 径 由 最 后 的 节点 表示 ， 下 标 是 路 径 的 花费 值 。 

最 初 ， 边 界 是 Lo103,]。 下 一 阶段 是 Lp3. tsss 0109,,). AW 23 的 花费 最 小 ， 所 以 选 
择 了 到 23 的 路 径 ， 结果 边界 变 为 ; [L2la， tsss bhis 0109r]. 

因为 并 的 花费 最 小 ， 然 后 选择 到 b1 的 路 径 ， 结 果 为 : [tss，c2ns， bhns 0109). 
b24, hs 

因为 右 的 花费 最 小 ， 然 后 选择 到 ts 的 路 径 ， 结 果 为 : [e2n, btn, 01092, mailu, 
bZ lo 

然后 选择 到 c2 的 路 径 ， 如 此 循环 。 注意 最 低 花 费 优 先 搜 索 是 如 何 逐 渐 增 长 路 径 的 ， 
它 总 是 扩展 花费 值 最 低 的 路 径 。 < 

如 果 一 个 问题 存在 解 路 径 ， 弧 线 的 花费 被 界定 为 低 于 一 个 正常 数 且 分 支 系 数 也 是 有 限 
AY. 那么 最 低 花 费 优先 搜索 就 能 确定 找到 一 个 最 优 解 ( 即 有 最 低 花费 的 路 径 )。 而 且 ， 最 先 
找到 的 路 径 就 是 花费 最 低 的 路 径 。 因 为 算法 产生 的 路 径 从 最 初 就 是 按照 路 径 花 费 值 排序 
的 ， 所 以 这 个 解 是 最 优 的 。 如 果 存 在 一 个 比 第 一 个 被 发 现 的 解 更 优 的 解 ， 它 在 边界 中 会 被 
选择 得 更 早 。 

界定 的 弧 花 费 是 用 来 保证 最 低 花费 搜索 能 找到 最 优 解 。 如 果 没 有 这 样 的 界定 ， 就 会 有 
有 限 花 费 的 无 限 路 径 。 例如 ， 对 时 每 一 个 z 之 0， T No» Ms Nes eee WEE AY MR ny. s 
n) PERMER 1/2, ROPER. FETE AIBA (mo, ms ngs rs ni) H 
径 ， 它 们 的 花费 都 小 于 1。 如 果 有 一 条 弧 从 no 到 目标 节点 的 花费 大 于 或 等 于 1， 它 将 永远 
都 不 会 被 选中 。 这 个 就 是 早 在 2300 年 前 亚 里 士 多 德 写 到 的 “ 芝 诺 悖 论 ” 的 基础 。 

像 宽度 优先 搜索 ， 最 低 花 费 优先 搜索 在 时 间 和 空间 上 都 是 典型 的 指数 函数 。 它 会 产生 
所 有 的 低 于 解 路 径 花 费 的 从 起 始 节点 开始 的 路 径 。 


3.6 启发 式 搜索 


前 面 说 的 所 有 的 算法 都 是 无 信息 的 ， 并 没有 考虑 目标 节点 在 哪里 。 它 们 没有 使 用 任何 
指引 它们 该 向 哪 去 的 信息 ， 除非 它 们 无 意 中 发 现 目标 。 关 于 哪些 节点 是 最 有 和 希望 节点 的 启 
发 信息 的 一 种 形式 叫做 启发 函数 h(n)， 这 个 函数 参数 为 节点 n， 返 回 一 个 非 负 实数 ， 即 为 
节点 到 目标 节点 的 估计 花费 。 如 果 丸 (n) 的 值 小 于 或 等 于 从 nn 节点 到 目标 节点 最 低 花费 路 
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径 的 实际 花费 ， 那 么 就 说 启发 函数 是 “低估 ”的 。 

启发 函数 是 得 出 目标 的 搜索 方向 的 一 种 方式 。 它 提供 一 个 有 信息 依据 的 方法 来 猜测 节 
点 的 哪个 邻居 将 会 通 往 目标 节点 。 

启发 函数 没有 什么 神奇 可 言 。 它 只 能 使 用 可 容易 地 从 节点 上 获取 的 信息 。 通 常情 况 
下 ， 和 需要 在 以 下 两 个 值 之 间 做 折 中 : 获取 一 个 站 点 的 局 发 值 所 花费 的 工作 量 ， 以 及 一 个 节 
点 的 启发 值 如 何 准 确 地 衡量 从 该 节点 到 目标 的 实际 路 径 花 费 。 

得 到 启发 函数 的 一 个 标准 方式 是 : 解决 一 个 更 简单 点 的 问题 ， 然 后 将 简化 了 的 问题 的 
实际 花费 作为 原始 问题 的 启发 函数 

【 例 3-12〗 图 3-2 中 ， 从 节点 到 目标 位 置 的 直线 距离 可 以 作为 启发 函数 。 

下 述 实例 中 假设 如 下 启发 函数 : 

hl(mail) = 26 h(ts) 

h(o109) 24 h(olll) 

h(o123) 4 h(o125) 

h(él) 13 ACb2) 

Aba) 18 hel) 6 híc?) 

h(c3) 12 hk(storage) 12 

h 函数 就 是 一 个 低估 ， 因 为 有 的 值 小 于 或 等 于 从 节点 到 目标 的 最 低 花 费 路 径 的 真实 花 
费 。 对 于 0123 来 说 ,有 的 值 就 是 真实 花费 值 。 对 名 来 说 ， 则 是 很 大 的 低估 ， 看 起 来 避 离 
目标 很 近 ， 但 其 实 只 能 通过 一 条 很 长 的 路 径 才 能 到 达 目 标 。 而 对 于 cl KH. KPA EN 
差 之 千里 ， 因 为 看 起 来 它 离 目标 节点 很 近 ， 事 实 上 没有 从 该 节点 通 往 目 标 节 点 的 路 径 。 本 

【 例 3-13) 在 例 3-2 中 的 投递 机 器 人 ， 状 态 空 间 包含 要 运送 的 包 襄 。 假 定 花 费 函 数 是 
机 器 人 运送 所 有 包 庄 走 过 的 总 距离 。 一 个 可 能 的 启发 函数 就 是 一 个 包 囊 到 目的 地 的 最 大 下 
离 。 如 果 机 器 人 只 能 携带 一 个 包 圳 ， 那 么 可 能 的 启发 函数 就 是 包 圳 经 过 的 距离 之 和 。 如 果 
机 器 人 一 次 可 以 携带 多 个 包 囊 ， 那 么 这 个 启发 函数 就 不 是 真实 花费 的 低估 了 。 可 

h 函数 也 可 以 扩展 适用 ( 非 空 ) 路 径 。 路 径 的 启发 值 是 路 径 最 后 的 节点 的 启发 值 。 即 

AC ne sese +m) ) =h im) 

启发 函数 的 一 个 简单 应 用 是 在 深度 优先 搜索 中 为 邻居 排序 ， 这 些 节点 被 依次 压 人 堆栈 
”来 表示 边界 ， 这 样 邻居 被 加 入 边界 ， 因 此 最 先 选择 的 是 最 优 邻居 ， 即 所 谓 启发 式 深度 优 
46” (heuristic depth-first search) 算 法 。 这 种 搜索 算法 可 以 找到 局 部 最 优 路 径 ， 但 是 在 搜索 
另 一 条 路 径 之 前 ， 它 会 遍历 所 有 已 选 路 径 。 尽 管 这 个 算法 常用 ,但 也 受 困 于 深度 优先 搜索 
自身 的 问题 。 

启发 函数 的 另 一 种 使 用 方式 是 : 总 是 选择 边界 中 具有 最 低 启 发 值 的 路 径 ， 这 叫做 最 优 
优先 搜索 (best-first search)。 这 个 方法 通常 不 太 有 效 ， 它 会 选择 看 上 去 最 有 希望 的 路 径 ， 
因为 他 们 离 目 标 节点 很 近 ， 但 是 路 径 花 费 会 不 断 增 加 。 ER 

【 例 3-14] 如 图 3-8 ha. MANKEREECHK O 
度 。 目 标 是 找到 从 > 到 & 的 最 短路 径 。 假 定 到 节点 g 的 
欧 几 里 得 距离 是 启发 函数 。 启 发 深度 优先 搜索 将 会 选 
择 位 于 s 下面 的 节点 ， 并 永远 不 会 终止 。 相 似 地 ， 因 为 
位 于 s 以 下 的 所 有 节点 看 起 来 者 不错; 最 优优 先 搜索 将 
会 在 它们 之 间 循 环 ， 而 从 不 尝试 由 s 开始 的 其 他 可 替换 
路 径 。 < 图 3:8 不 适用 最 优优 先 搜索 的 图 
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3.6.1 A’ BR 


A’ PRERMERKACRARARRKERRWAS, CEMA RN RRB 
路 径 的 花费 也 要 考虑 启发 信息 。 对 于 边界 上 的 每 一 条 路 径 ，A ”都 会 估计 沿路 径 从 初始 节 
点 到 目标 节点 的 总 路 径 花 费 。 它 使 用 函数 cost(p)( 即 已 找到 的 路 径 花 费 ) 和 启发 函数 AC p) 
( 即 从 p 的 结尾 到 目标 的 估计 花费 )。 

对 于 边界 上 的 任意 路 径 p， 定 义 函 数 了 (p) 二 cost(p) 十 h(p)， 指 沿 着 路 径 p 到 目标 节 
点 的 估计 总 花费 。 

R n ERE p 的 末节 点 ， 那么 可 以 描述 为 : 


actual estimate 
Sart —— dl 
2o T 
cust p) ALA) 


Kp 


如 果 由 Ci) 是 从 节点 于 到 目标 节点 路 径 花费 的 低估 ,那么 f(p) 就 是 从 初始 节点 经 过 六 
到 目标 节点 路 径 花 费 的 低估 。 

4 “是 通过 将 边界 看 做 按照 /(p) 进 行 排序 的 优先 级 队列 来 实现 的 。 

【 例 3-15) 对 例 3-4 运 用 A 算法 进行 搜索 并 使 用 例 3-12 的 启发 函数 。 在 这 个 例子 
中 ， 边 界 上 的 路 径 用 路 径 上 最 后 一 个 节点 来 表示 ， 下 标 是 路 径 的 ff. 初始 边界 是 : 
[ol103a ]， 因 为 h(o103) 二 2， 路 径 花 费 是 0。 然 后 用 邻居 替换 ， 形 成 新 的 边界 : [632 » 
ves O109%.|\. 

F— TIC RAAB (0103, 63>, EM 了 的 值 为 : f(<ol03, 63))=cost({ol03, 63>) + 
h(b3)=4+17=21, Be 63 就 被 邻居 替换 ， 边 界 变 为 : Chlas On tss 010955]. 

然后 到 b1 的 路 径 被 b1 的 邻居 替换 ， 边 界 变 为 : (c2n, bls b2, ts» 0109s }. 

接 下 来 ， 到 c2 的 路 径 被 它 的 邻居 替换 ， 边界 变 为 : Lela» 64295 2255 C3291 Lsals 
01093]. 

直到 这 个 状态 ， 搜 索 一 直 都 在 找 看 起 来 直接 通 往 目 标 节 点 的 路 径 。 下 面 ， 选择 cl 被 
相 邻 点 苦 代 ， 形成 边界 : [409 > bags C3255 tsals C3ass 010935]. 

直到 这 一 步 ， 到 c3 有 两 条 不 同 路 径 。 其 中 一 条 不 经 过 cl1， 它 的 了 值 要 比 经 过 cl HA 
外 一 条 路 径 低 。 在 后 面 ， 我 们 会 考虑 将 其 中 一 个 路 径 剪 枝 的 情况 。 

这 里 有 两 条 相同 卫 值 的 路 径 。 算 法 没有 指定 选择 哪 条 。 假 设 下 一 步 选 择 了 通 往 54 的 
路 径 ， 并 被 它 的 相 邻 点 替换 ， 形成 边界 : [b2z5 C3295 ÉSz s C335» 0109365 0109,» |. 

然后 选择 到 52 的 路 径 并 被 邻居 蔡 换 ， 但 这 条 路 径 是 空 集 ， 所 以 形成 边界 : [c32， 
t531 9 C335» 0435+ 010935+ 0109.2]. 

然后 到 c3 的 路 径 被 删除 ， 它 没有 邻居 ， 因 此 ， 新 的 边界 变 为 : Ltssl，c3s5，84ss， 
01093,, 01094. |. 

注意 A "算法 是 如 何 从 一 开始 寻求 多 个 不 同 路 径 的 。 

最 终 会 找到 一 个 最 低 花 费 路 径 。 这 个 算法 会 强制 尝试 很 多 不 同 的 路 径 ， 因 为 它 科 其 中 的 
一 些 路 径 暂 时 看 上 去 有 最 低 花 费 。 它 仍然 比 最 低 花费 优先 和 最 优优 先 搜 索 方法 都 要 好 。 < 

【 例 3-16] 考虑 图 3-8， 对 于 其 他 的 启发 方法 ， 这 是 个 有 问题 的 图 。 虽 然 由 于 启发 函 
数 ， 起 始 情况 从 节点 s 向 下 搜索 ， 但 最 终 路 径 的 花费 变 得 非常 大 ， 因 此 它 选择 了 在 实际 最 
优 路 径 上 的 节点 。 < 

如 果 解 存在 ，A" 总 是 能 找到 最 优 解 ， 而 且 搜索 的 第 一 条 路 径 就 是 最 优 的 ， 这 个 性 质 
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叫做 A A“ AT RAE” (admissibility), ERR: 即使 当 搜 索 空间 是 无 限 的 ， 如 果 解 存 
E. 那么 就 一 定 能 找到 解 ， 而 且 找 到 的 第 一 条 路 径 就 是 最 优 解 ， 即 从 起 始 节 点 到 目标 节点 
的 最 低 花 费 路 径 。 

命题 3. UA 可 采纳 性 ) 如 果 存 在 解 ，A* 总 可 以 找 一 个 解 ， 并 且 找 到 的 第 一 个 解 就 
是 最 优 解 ， 如 果 : 

。 分 支 系数 有 限 ( 每 一 个 节点 有 有 限 个 邻居 ); 

.。 MAIER KT e>0; 

。 AMAA An a) BAF AO RIE RBA RK) KPH HH FOR. 

证 明 : 

A 部分: 可 以 找到 解 。 如 果 弧 线 的 花费 都 大 于 ee，e 二 0， 最 终 对 于 边界 中 所 有 的 路 径 
力 ，cost( 力 ) 会 超过 任何 有 限 的 数 。 因 此 ， 如 果 存 在 解 ，cost( 力 ) 会 超过 解 的 花费 (搜索 树 的 
深度 不 会 大 于 m/e, KE mw 是 解 的 花费 )。 因 为 分 支 系 数 是 有 限 的 ， 在 搜索 树 还 没 扩 展 到 
这 个 规模 之 前 ， 只 能 扩展 有 限 数 目的 节点 ,但 是 那 时 A' 算法 已 经 找到 了 解 路 径 。 

B 部 分 : 找到 的 第 一 条 解 路 径 就 是 最 优 路 径 。 在 最 优 解 路 径 中 ， 任 何 一 个 节点 的 了 值 
都 小 于 或 者 等 于 最 优 解 的 f 值 ， 这 是 因为 h 是 从 一 个 节点 到 目标 的 实际 花费 的 低估 。 因 
此 ， 最 优 解 路 径 中 任何 一 个 节点 的 了 值 都 小 于 任何 非 最 优 解 的 卫 值 。 所 以 ， 当 一 个 节点 存 
在 于 指向 最 优 解 的 边界 中 时 ， 算 法 永远 不 会 选择 一 个 非 最 优 的 路 径 ( 因 为 在 每 一 步 中 ， 都 
会 选择 f 值 最 小 的 元 素 )。 因 此 ， 在 可 能 选择 一 个 非 最 优 解 之 前 ， 它 肯定 已 经 造访 了 一 个 
最 优 路 径 上 的 所 有 的 节点 ,包括 每 一 个 最 优 解 。 a 

应 该 注意 到 : A* 的 可 采纳 性 不 能 保证 每 一 个 从 边界 中 选择 的 中 间 节 点 位 于 从 开始 节 
点 到 目标 节点 的 最 优 路 径 中 。 可 采纳 性 使 算法 不 必 担 心 环 路 问题 ， 保 证 了 第 一 个 解 是 最 优 
解 。 但 当局 部 路 径 最 优 时 ， 它 并 不 能 保证 算法 不 会 改变 主意 。 

看 一 下 启发 函数 是 如 何 提高 A 算法 的 效率 的 ， 假设 c 是 从 起 始 节 点 到 目标 节点 的 最 
Re. A 具有 可 采纳 性 的 启发 信息 ， 扩 展 集合 {p:cost(p) 十 h(p) 二 c} 中 从 起 始 
节点 开始 的 每 一 条 路 径 ， 或 者 集合 {p:cost(p) 十 h(p) 二 c} 中 的 某 些 路 径 。 

如 果 减 少 这 些 集 合 中 第 一 部 分 的 数量 ， 提 高 h 则 会 影响 A" 的 效率 。 


3. 6.2 搜索 策略 总 结 
3-9 中 的 表格 给 出 了 各 种 搜索 策略 的 总 结 。 





图 3-9 搜索 策略 的 总 结 
Zz, “终止 否 ” 意 味 着 “如 果 图 (可 能 无 穷 大 ) 中 有 一 条 到 目标 的 路 径 ， 该 路 径 上 每 个 节点 都 有 有 限 个 数量 的 邻居 ， 
且 每 条 狐 的 花费 都 有 正 值 下 界 ， 那 么 这 个 方法 能 否 保证 搜索 终止 ? ”。 那 些 回答 “Yes" 的 搜索 策略 的 最 坏 情 
闹 下 的 时 间 复 杂 度 与 路 径 长 度 呈 措 数 形式 增长 。 那 些 不 能 保证 终止 的 算法 有 无 限 最 坏 情 况 的 时 间 复 杂 度 。 
“空间 ” 指 的 是 空间 复杂 度 ， 它 与 路 径 甘 度 是 "线性 "或 是 “指数 级 "关系 。 


深度 优先 搜索 在 空间 上 与 造访 路 径 的 长 度 呈 线性 增长 ,但 是 即使 有 解 存 在 ， 它 也 不 能 
保证 能 找到 解 。 宽 度 优先 、 最 低 花 费 优先 以 及 A" 算法 在 时 间 和 空间 上 都 是 呈 指 数 增长 ， 
只 要 解 存在 ， 即 使 图 是 无 限 大 的 (只 要 分 支 系数 有 界 ， 弧 线 花费 是 正 非 平 凡 )， 它 们 都 能 保 
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证 找到 解 。 
最 低 花 费 优 先 和 A" 搜索 算法 都 能 保证 第 一 个 找到 的 解 是 最 低 花 费 的 解 。 


3.7 更 复杂 的 搜索 方法 


之 前 的 策略 可 以 进行 很 多 优化 。 首 先 ， 我 们 给 出 两 种 适用 于 图 中 有 环 的 方法 : 一 种 是 
对 环 路 的 明确 检查 ， 而 另 一 种 是 对 到 某 一 节点 的 多 路 径 检查 。 然 后 ， 我 们 给 出 和 迭代 深度 算 
法 和 深度 分 支 界限 搜索 法 ， 这 两 种 方法 是 能 保证 找到 解 路 径 (甚至 是 最 优 解 ) 的 一 般 方法 ， 
就 像 宽度 优先 搜索 算法 或 者 A 搜索 算法 ， 但 是 利用 了 深度 优先 搜索 的 空间 优点 。 我 们 将 
搜索 问题 分 解 为 很 多 小 的 搜索 问题 来 简化 搜索 方法 ,这样 每 一 个 都 更 容易 解决 。 最 后 ， 我 
们 说 明 利 用 动态 规划 法 如 何 寻找 路 径 和 构建 启发 函数 。 


3.7.1 环 检 查 


用 来 代表 搜索 空间 的 图 可 能 包含 环 。 例如， 图 3-6 中 的 机 器 人 域 中 的 机 器 人 会 在 节点 
0103 和 0109 之 间 来 回 移动 。 前 面 所 述 的 搜索 方法 中 有 些 会 陷入 环 ， 不 断 循环 ， 其 至 在 有 
限 图 中 也 找 不 到 搜索 结果 。 其 他 的 方法 也 可 能 循环 ， 但 最 终 会 找到 解 。 

当 能 保证 在 有 限 图 中 找到 解 后 ， 修 剪 搜索 树 的 最 简单 的 方法 是 ， 不 考虑 那些 已 经 在 从 
起 始 节 点 开始 的 路 径 上 的 点 。"“ 环 检查 ”(cycle check) 和 “回路 检查 ”(loop check) 就 是 用 来 
检查 最 后 一 个 节点 是 否 在 从 初始 节点 到 这 个 点 的 路 径 上 出 现 过 。 有 了 循环 检查 ， 只 有 路 径 
(Sys Sey SD, 其 中 ，s 攻 {50，"… 54}， 加 入 了 图 3-4 中 第 16 行 。 另 外 ， 志 可 以 在 选择 
了 节点 之 后 再 进行 检查 ， 删 除 有 环 的 路 径 。 

环 检查 的 计算 复杂 性 决定 于 所 使 用 的 搜索 方法 。 对 于 深度 优先 搜索 方法 ， 其 图 是 显 
式 存储 的 ， 管 理 费 用 跟 常数 因子 一 样 低 。 图 中 每 个 节点 增加 1 位， 当 节 点 扩张 的 时 候 该 
位 应 当 为 1， 回溯 的 时 候 为 0。 搜 索 算 法 可 以 通过 不 扩展 该 位 是 1 的 节点 来 避免 循环 。 
因为 深度 优先 算法 保持 单一 当前 路 径 ， 所 以 这 个 方法 有 效 ， 路 径 上 的 边界 有 可 替代 的 分 
支 。 即 使 图 是 动态 生成 的 ， 只 要 当前 路 径 上 的 点 有 一 个 有 效 的 索引 结构 ， 那 么 很 容易 完 
成 环 检查 。 

对 于 多 路 径 的 搜索 策略 (也 就 是 说 ， 图 3-9 中 所 有 有 指数 空间 的 那些 )， 环 检查 的 时 间 
与 搜索 的 路 径 长 度 保持 线性 增长 。 在 检查 以 保证 不 会 添加 已 经 在 路 径 中 出 现 过 的 节点 上 ， 
这 些 算法 不 能 比 搜索 局 部 路 径 做 得 更 好 
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通常 有 多 条 路 径 通 向 一 个 节点 。 如 果 只 需要 一 条 路 径 ， 对 于 已 经 找到 一 条 路 径 的 节 
点 ,搜索 算 法 就 需要 从 边界 中 剪 枝 掉 其 他 任何 通 往 该 节点 的 路 径 。 

多 路 径 剪 枝 GCmultiple-path pruning) 是 通过 由 已 扩展 节点 组 成 的 closed 表 来 实现 的 。 
如 图 3-4 中 的 13 行 ， 选择 了 一 个 路 径 ， 如 果 它 的 最 后 一 个 节点 在 dosed 表 中 ， 那 么 这 条 
途径 就 该 删除 。 和 否则， 将 最 后 的 节点 加 到 closed 表 中 ， 算 法 会 继续 进行 。 

这 个 方法 不 一 定 保证 最 短 的 路 径 不 被 丢弃 。 可 能 要 更 复杂 的 方法 才能 保证 找到 最 优 
解 。 为 了 保证 搜索 算法 可 以 找到 至 目标 节点 最 低 花 费 的 路 径 ， 应 当 遵守 以 下 几 条 之 一 : 

。 保证 到 达 任 何 节点 的 第 一 条 路 径 都 是 到 那个 点 的 最 低 花 费 路 径 ， 然 后 像 前 面 讨论 

过 的 那样 ， 剪 枝 掉 所 有 随后 找到 的 到 那个 点 的 路 径 。 
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。 如 果 搜 索 算法 找到 比 已 经 找到 的 路 径 花 费 更 低 的 路 径 了 ， 那 么 它 就 可 以 将 所 有 较 
高 花费 的 路 径 删 除 ( 因 为 这 些 都 不 可 能 是 最 优 解 )。 也 就 是 说 ， 如 果 边 界 有 一 条 路 
2 p FERRER Ns, ot, ny om, MP, RAA n ERE p'e p 中 相应 部 分 更 近 ， 
那么 p 就 可 以 从 边界 中 删除 了 。 
。 无 论 何 时 ， 如 果 搜 索 中 找到 比 之 前 我 到 的 路 径 花费 更 低 的 至 某 点 的 路 径 ， 那么 就 
把 这 条 新 路 径 吸 收 到 已 扩展 路 径 的 初始 路 径 中 。 因 此 ， 如 果 有 路 径 pHs. 
ns, s 1)， 一 个 到 的 更 短 的 路 径 p' 就 可 以 代替 到 nn 的 路 径 p 的 初始 部 分 。 
这 些 方 案 中 的 第 一 条 ， 人 允许 在 找到 最 优 解 的 保证 下 使 用 closed 表 。 其 他 则 需要 更 复杂 
的 算法 。 
在 最 低 花 费 优先 算法 中 ， 第 一 次 找到 的 到 某 一 个 节点 (如 ， 从 边界 中 选择 的 一 个 节点 ) 
的 路 径 ， 是 到 该 节点 的 最 低 花 费 路 径 。 删 除 随 后 的 到 该 节点 的 路 径 不 会 移 除 最 低 花 费 的 那 
条 到 该 节点 的 路 径 ， 所 以 ， 剪 掉 随 后 的 路 径 仍然 可 以 保证 找到 最 优 解 。 
像 之 前 描述 的 一 样 ，A "算法 不 能 保证 到 某 点 第 一 次 选择 的 路 径 就 是 到 该 点 的 最 低 花 
费 路 径 。 注 意 到 ， 可 采纳 性 定理 保证 的 是 对 于 到 日 标 节点 的 每 一 条 路 径 ， 而 不 是 每 一 条 路 
径 。 看 看 何 时 删除 到 一 个 节点 的 随后 路 径 会 删除 最 优 解 ， 假 设 算法 选择 了 到 节点 n 的 路 径 
PRT. 但 是 存在 一 个 到 节点 nn 的 更 低 花 费 的 路 径 ， 而 这 条 路 径 还 没有 找到 。 那 么 ， 边 
界 中 就 应 该 有 路 径 p'， 它 是 较 低 花费 路 径 的 初始 部 分 。 猿 想 路 径 p' 在 节点 zs 结束。 则 一 
定 有 (pp) 三 f(p')， 因 为 pp 是 在 p' 之 前 选择 的 。 这 就 是 说 : 
cost( p) +h(n)<cost( p') Hh) 
MRA p HA p 的 到 的 路 径 有 更 低 花 费 ， 则 
cost p) +H dln’ ,n)<cost(p) 
Hp, dins MHAPA n 到 节点 的 最 短路 径 的 实际 花费 。 从 上 面 两 个 等 式 ， 我 们 可 以 
得 出 : 
d(n'.n)<cost(p)—cost( p')<hCp")—hCp) = hn)—h(n) 
(A(p)—h(p) = h(n') 一 h(n) 可 通过 以 上 假设 得 出 ,) 因 此 ， 对 于 任意 两 个 节点 和 
n's WRAD h| < dr’, n), 那么 就 能 保证 找到 的 第 一 条 路 径 就 是 最 低 花 费 路 
径 。 对 于 任意 两 个 节点 nn 和 nn， 对 有 的 单调 限制 (monotone restriction) # | hn —h(n) | < 
d(n'，n)。 也 就 是 说 ， 两 个 节点 的 启发 函数 值 的 差 必 须 小 于 或 等 于 两 点 最 低 花 费 路 径 的 
实际 花费 。 例 如 ， 当 花费 函数 是 关于 距离 的 函数 时 ， 它 适用 于 两 点 之 间 的 欧 几 里 得 距离 
(在 地 维 欧 几 里 得 空间 的 直线 距离 ) 的 启发 函数 。 它 也 适用 于 启发 函数 是 有 更 短 解 的 简化 
问题 的 解 。 
因为 单调 的 限制 ， 在 边界 ，f 值 是 单调 非 递 减 函 数 。 也 就 是 说 ， 随 着 边界 的 扩展 ，f 
值 不 会 变 小 。 因 此 ， 因 为 单调 的 限制 ，A* 算法 中 随后 的 到 任何 节点 的 路 径 都 可 以 删除 。 
多 路 径 前 枝 包 含 环 检查 ， 因 为 环 是 到 某 个 节点 的 男 外 一 条 路 径 9 因此 要 被 删除 看 。 
如 果 图 是 显 式 存 储 的 ， 通 过 在 每 个 节点 上 设置 一 个 比特 位 标明 已 被 找到 的 路 径 ， 多 路 径 
剪 枝 可 以 在 一 个 常数 时 间 内 完成 。 如 果 图 是 动态 生成 的 ， 通 过 存储 由 已 扩展 过 的 所 有 节 
点 组 成 的 closed 列表 ， 它 能 在 对 数 时 间 ( 只 要 进行 适当 索引 ， 可 与 已 扩展 的 节点 数量 成 
对 数 级 ) 完 成 。 多 路 径 剪 枝 优先 于 宽度 优先 的 环 检查 ， 因 为 宽度 优先 搜索 中 所 有 节点 被 
认为 必须 存储 。 人 然而， 对 于 深度 优先 搜索 ， 算 法 并 不 是 存储 所 有 的 已 经 扩展 节点 。 存 储 
它们 会 使 这 个 方法 的 空间 呈 指 数 增 长 。 因 此 ， 对 于 深度 优先 搜索 ， 环 检查 优先 于 多 路 径 
BY HX . 
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3.7.3 和 迭代 深化 


到 目前 为 止 ， 我 们 所 讨论 过 的 方法 中 ， 没 有 一 种 方法 是 理想 的 。 仅 有 的 能 保证 找到 路 径 
方法 需要 指数 空间 ( 见 图 3-9)。 结 合 深 度 优先 搜索 算法 的 空间 效率 和 宽度 优先 搜索 算法 的 最 
优 性 的 一 种 方法 是 迭代 深化 (iterative deepening)。 这 种 方法 的 思想 是 重新 计算 边界 中 的 点 而 
不 是 储存 它们 。 每 一 次 重新 计算 的 过 程 都 是 深度 优先 搜索 ， 因 此 用 更 少 的 空间 。 

我 们 考虑 将 宽度 优先 搜索 融合 到 办 代 深化 搜索 。 由 仅 进 行 有 限 深度 搜索 的 搜索 器 来 进 
行 。 首 先 ， 通过 用 深度 为 1 的 方式 进行 深度 优先 搜索 ， 找 到 深度 为 1 的 深度 优先 方式 的 路 
径 。 然 后 找 深度 为 2 的 路 径 ， 然 后 是 深度 为 3 的 路 劲 ， 依 次 进行 。 每 一 次 重新 计算 都 可 以 
删 掉 之 前 的 计算 并 再 次 启动 。 最 后 如 果 解 存在 就 可 以 找到 解 了 ， 因 为 它 是 按 顺 序列 举 路 
径 ， 所 以 第 一 个 找到 的 路 径 就 是 弧 线 最 少 的 。 

当 使 用 迭代 深化 搜索 时 ， 应 当 注 意 区 分 : 

。 因为 达到 深度 界限 的 失败 。 

。 还 未 到 达 深 度 界 限 的 失败 。 

对 于 第 三 种 情况 ， 搜 索 必须 进行 更 深 界限 的 搜索 。 对 于 第 二 种 情况 ， 重 新 进行 一 次 更 深 
界限 搜索 是 浪费 时 间 ， 因 为 不 管 多 深 ， 路 径 都 不 存在 。 我 们 称 这 种 到 达 了 深度 界限 的 失败 叫 
做 非 自 然 失 败 (failing unnaturally), KBAR 





度 界限 的 失败 叫做 自然 失败 (failing naturally) 。 

图 3-10 中 提出 一 种 迭代 深化 搜索 的 实现 
IdSearch。 局 部 程序 dbsearch 实现 了 一 个 深 
度 有 界 的 深度 优先 搜索 (使 用 递归 来 保持 堆 
栈 )， 可 以 限制 正在 搜索 的 路 径 长 度 。 它 使 用 
深度 优先 搜索 来 找到 所 有 长 度 为 十 5 的 路 
Z, Hp, k 是 给 定 的 从 起 点 开始 的 路 径 长 
RE, b 是 一 个 非 负 整数 。 和 迭代 深化 搜索 器 调用 
这 个 程序 来 增加 深度 界限 。 这 个 程序 发 现 的 
到 目标 节点 的 路 径 的 顺序 和 宽度 优先 算法 相 
同 。 作 为 一 种 通用 的 图 搜索 算法 ， 为 找到 更 
多 路 径 ， 在 22 行 的 return 之 后 ,搜索 能 从 
23 行 继续 。 

只 要 宽度 优先 搜索 失败 ， 和 迭代 深化 搜索 
就 会 失败 。 当 需要 更 多 解 时 ， 即 使 在 后 续 的 
迭代 中 可 能 被 再 次 发 现 ， 每 一 个 成 功 路 径 也 
只 返回 一 次 。 通 过 跟踪 何 时 增加 界限 可 以 帮 
助 找到 解 能 使 搜索 终止 

。 如 果 深 度 搜 索 中 因为 到 达 了 深度 界限 

而 截断 了 ， 那 么 深度 界限 可 以 增加 。 
在 这 种 情况 下 ， 搜 索 就 非 自 然 失 败 了 。 
如 果 因 为 深度 界限 的 限制 而 没有 删除 
任何 路 径 ， 那么 搜索 就 自然 失败 了 了。 
这 种 情况 下 ， 程 序 终 止 ， 报 告 0 路 径 ， 





1; procedure IdSearch(G, s, goal) 
2: Inputs 


















4; St 开始 节点 的 集合 
53 goal; 关于 状态 的 布尔 函数 
6; Output 


8; 或 者 如 果 没 有 这 样 的 路 径 则 上 
9: Local 
10; natural failure: 布尔 型 











H: bound: 整 型 
12; procedure dbsearch( (my, +, mi)» b) 
13; Inputs 
14; (mys ‘> ng); path 
15; b: integer, b=0 
16; Output 
17; 到 目标 节点 的 长 度 为 十 b 的 路 径 
18; if b>O then 
19; for each arc(n,, n) EA do 
20; dbsearch (nos **s ms my b—1) 
21: else if goal(n,) then 
22; return(n,, ***, n) 
23; else if 未 有 任意 邻居 then 
24; natural_failure = false 
25: bound = 0 
26: repeat 
27; natural failure = true 
28: dbsearch( {ls} : s€S}, bound) 
29: bound == bound+\ 
30; until natural_failure 
return | 





3-10” 迁 代 深化 搜索 


3: G: 具有 六 个 节点 和 A 条 边 的 图 


7: Ms B| goal 函数 值 为 真 的 节点 的 路 径 
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。 搜索 只 报告 在 之 前 的 迭代 中 没有 报告 过 的 一 条 路 径 ， 因此， 它 只 返回 那些 长 度 等 

于 深度 界限 的 路 径 。 
迭代 深化 搜索 的 最 明显 的 问题 是 每 一 步 的 计算 浪费 。 然 而 ， 这 可 能 不 像 某 些 人 想 的 那 
样 糟糕 ， 尤 其 是 当 分 支 系数 很 高 的 时 候 。 考 虑 下 面 算法 的 运行 时 间 。 假 定 一 个 常数 分 支 系 
数 "1， 考 虑 界限 是 & 的 搜索 。 对 于 深度 &， 有 居 个 节点 ， 每 一 个 节点 被 生成 1 K. RE 
为 一 1 的 节点 被 生成 2 次 ， 那 些 深 度 为 一 2 的 节点 被 生成 3 次 ， 如 此 类 推 ， 然 后 深度 为 


1 的 节点 被 产生 上 次 。 因 此 ， 节 点 的 生成 总 数 是 ， 

BQ +30? +o kb 

= (1+2b7'+3b>*++--+hb' *) 

<o( dH) 

=" (5-45) 

在 深度 n 生成 节点 有 一 个 固定 的 开销 (5/(b 一 1))2， 当 6 一 2 时 ， 就 有 一 个 开销 系数 4， 
4 b=3 时 ， 有 开销 系数 2. 25 保证 边界 。 该 算法 是 O(5:)， 并 且 找 不 到 一 个 更 好 的 渐进 的 
无 信息 搜索 策略 。 注 意 到 ， 如 果 分 支 系数 接近 1， 这 种 分 析 就 没有 用 (因为 分 母 趋 近 于 0)， 
见习 题 3.9. 

迭代 深化 也 可 以 用 于 A" 搜索 中 。 选 代 深化 A" ODA ) 算 法 通过 重复 的 有 深度 界限 的 
深度 优先 搜索 来 进行 。 它 是 一 个 有 界 的 /Cn) 的 值 ， 而 不 是 路 径 中 弧 的 数量 有 界 。 它 的 阅 
值 起 始 于 是 SO), Jh s 是 有 最 小 值 的 初始 节点 。 然 后 IDA* 进行 深度 优先 的 深度 有 界 
搜索 ， 但 从 不 扩展 一 个 比 当前 的 界限 更 高 的 了 值 的 节点 。 如 果 深度 有 界 的 搜索 非 自 然 地 失 
败 了 ,那么 下 一 个 界限 就 是 超过 之 前 界限 的 最 小 的 了 值 。IDA- 就 如 A 一 样 检查 相同 的 节 
点 ， 但 用 深度 优先 搜索 重新 计算 它们 ， 而 不 是 存储 它们 。 


3.7.4 分 支 界限 法 


深度 优先 分 支 界 限 (branch and bound) 搜 索 是 一 种 结合 了 深度 优先 搜索 算法 的 空间 节 
约 和 启发 信息 搜索 的 方法 。 它 特别 适用 于 存在 很 多 条 通 往 目标 节点 的 路 径 ， 我们 需要 的 是 
最 优 的 路 径 。 像 在 A BAR. 我们 假设 h(n) 小 于 或 等 于 从 nn 到 目标 节点 的 最 低 花 费 路 径 
的 花费 。 

深度 优先 分 支 界限 搜索 的 思想 是 保持 到 目标 最 低 花 费 的 路 径 和 它 的 花费 ， 假 定 这 个 花 
费 是 有 界 的 。 如 果 搜 索 磁 到 路 径 p WE cost (p) +h p> bound, MA p 就 该 删除 掉 。 如 
果 找 到 没 被 删除 的 路 径 ， 那 么 这 条 路 径 一 定 优 于 之 前 最 好 的 路 径 。 这 个 新 解 被 记 住 ， 而 且 
界限 就 设置 成 这 个 新 解 的 花费 ， 然 后 寻找 更 好 的 解 。 

分 支 界 限 搜索 生成 持续 优化 解 的 序列 。 一 旦 找到 一 个 解 ， 就 一 直 优 化 它 。 

分 支 界限 搜索 典型 地 用 于 深度 优先 搜索 ， 这 样 可 以 保持 深度 优先 的 节省 空间 的 优点 。 
它 和 深度 有 界 搜索 的 实现 方法 相似 ， 但 是 这 里 的 界限 是 路 径 的 花费 ， 然 后 减少 花费 发 现 更 
短 的 路 径 。 算 法 会 记 住所 发 现 的 花费 最 低 的 路 径 ， 当 搜索 完成 时 返回 这 条 路 径 。 

算法 见 图 3-11。 对 于 花费 有 界 搜 索 ， 内 部 程序 cbsearch 使 用 全 局 变量 来 给 主 程序 提供 
信息 。 

最 初 ， 界 限 可 以 设 定 为 无 穷 大 , 但 是 也 可 以 设置 一 个 高 估 的 值 ，boundso， 作 为 最 优 路 
径 的 花费 ， 这 很 和 有 用。 如果 存在 比 初始 花费 界限 bound, 更 低 的 路 径 ， 这 个 算法 会 返回 最 
优 解 (从 初始 节点 到 目标 节点 的 最 低 花 费 路 径 )。 
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l; procedure DF BranchAndBound(G, s, goal, h, bound) 
Inputs 

G: 具有 个 节点 和 4 条 边 的 图 

goal; 节点 上 的 布尔 函数 

h: 节点 二 的 启发 函数 

bounds: 初始 化 深度 (如 果 没 有 指定 ， 可 以 是 oo) 
Output 


oo 心机 上 


10; 或 者 如 果 没 有 和 解 小 于 bound。， 则 | 
11: Local 

12: best_path: Beye | 

13; bound: 非 负 实数 


14; procedure chsearch (irigos **+ m)) 

15; if cost (Ings … m))+hGOn) <bound then 
16; if goal(n,) then 

17; best_path *= (rips "ts n) 

18; bound *= cast (no, ***+ my)) 

19; else 

20; for each arc (n, n) EA do 

21: chsearch (Cno, ***, nis n)) 


22; best_path = | 
23: bound := bound, 
24:  cbsearch(<s)) 

return best_path 


3-11 深度 优先 分 支 限界 搜索 


9: 如 果 没 有 一 个 含有 5c 的 解 小 于 bound。， 返 回 从 s 到 目标 节点 的 最 低 花 费 的 路 径 
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如 果 初 始 界 限 略 高 于 最 低 花费 路 径 的 花费 ， 那 么 这 个 算法 不 需 扩 展 比 A" 算法 更 多 的 
弧 就 可 以 找到 最 优 的 路 径 。 上 述 情况 发 生 的 条 件 是 ， 算 法 将 那些 花费 比 最 低 花 费 高 的 任何 
路 径 都 剪 枝 ; 一 旦 它 发 现 一 个 通 往 目标 节点 的 路 径 ， 它 就 只 探索 那些 了 值 低 于 已 扩展 路 径 


的 路 径 。 而 这 些 正好 就 是 A 找到 一 个 解 后 所 探索 的 路 径 。 


当 bound, =cof}, WRK. 则 不 存在 解 。 当 bound, 是 有 界 值 时 ， 返 回 上， 表示 
比 bound, 花费 少 的 解 不 存在 。 在 找到 解 或 者 已 知 解 不 存在 之 前 ， 这 个 算法 可 以 结合 迭代 


深化 算法 来 增加 界限 ， 见 习题 3. 13。 

【 例 3-17】 
1， 没有 启发 信息 ( 即 每 个 节点 的 
h(n) 二 0)。 在 算法 中 ， 假 设 depths = 
oo， 深度 优先 搜索 总 是 先 选择 最 左边 
的 后 继 节 点 。 该 图 说 明了 检验 确定 节 
点 是 否 是 目标 节点 的 顺序 。 没 有 标 出 
序号 的 节点 是 未 检验 的 节点 。 

在 节点 5 下面 的 子 树 形 图 中 ， 没 
有 目标 节点 ， 被 完全 探索 完 ( 或 者 根据 
深度 的 有 限 值 depth, 进行 扩展 》。 被 检 
验 的 第 9 个 节点 是 目标 节点 。 它 有 一 
条 路 径 ， 其 花费 是 5， 所 以 界限 值 设 为 
5。 从 此 以 后 ， 只 有 长 度 小 于 5 的 路 径 
才能 作为 可 能 的 解 被 检验 。 第 15 个 被 





看 图 3-12 中 的 树 形 图 。 目 标 节点 被 涂 上 明 影 。 假 设 每 一 段 弧 线 的 长 度 为 


S O 


3-12 在 深度 优先 分 支 限 界 搜索 中 所 扩展 的 节点 
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检验 的 节点 也 是 目标 节点 。 它 的 路 径 花 费 是 3， 所 以 界限 减少 到 3。 再 没有 找到 其 他 的 目 

标 节 点 ， 所 以 到 标号 15 的 那 条 路 径 返回 ， 这 个 是 最 优 路 径 。 有 另外 一 条 最 优 路 径 被 剪 枝 。 

算法 就 不 再 检验 标号 为 18 的 节点 的 后 继 节 点 。 < 
如 果 有 启发 信息 ， 就 可 以 用 来 剪 枝 部 分 的 搜索 空间 ， 就 像 A` 算法 。 


3.7.5 搜索 方向 


在 有 限 无 信息 图 上 的 通用 搜索 算法 的 搜索 空间 大 小 是 太 ， 这 里 5 是 分 支 系 数 , 上 是 路 
径 长 度 。 任 何 可 以 减少 和 大 的 方法 都 可 能 会 节省 很 多 资源 。 

问题 求解 的 图 搜索 方法 的 抽象 定义 在 以 下 意义 上 是 对 称 的 ， 即 这 个 算法 可 以 从 初始 节 
点 开始 ， 向 前 搜索 目标 节点 ; 或 者 逆向 从 目标 节点 开始 ， 向 后 搜索 初始 节点 。 注 意 ， 目 标 
节点 的 许多 应 用 是 由 布尔 函数 隐 式 地 确定 ， 即 当 发 现 目 标 节点 时 返回 true， 而 不 是 显 式 地 
返回 节点 集 ， 所 以 说 道 向 的 向 后 搜索 也 许 是 不 可 能 的 。 

对 于 那些 目标 节点 是 显 式 的 情况 ， 在 一 个 方向 上 搜索 可 能 比 男 一 个 方向 更 有 效 。 搜索 
空间 的 大 小 与 分 支 系数 成 指数 增长 。 通 常情 况 下 ， 向 前 和 向 后 搜索 有 不 同 的 分 支 系 数 。 向 
前 或 者 向 后 搜索 的 一 般 原 则 是 哪个 方向 有 较 小 的 分 支 系 数 。 

下 面 讨论 的 几 种 方法 对 于 搜索 空间 来 说 可 以 提高 效率 。 

1. 双向 搜索 

这 个 搜索 方法 的 思想 是 同时 从 起 始 节点 向 后 以 及 从 目标 节点 向 前 搜索 来 减少 搜索 时 
间 。 当 两 个 搜索 的 边界 相交 ， 这 个 算法 就 重 构 出 一 个 路 径 ， 它 从 起 始 节点 到 相交 的 边界 再 
到 目标 节点 。 

在 双向 搜索 中 产生 一 个 新 间 题 ， 即 要 保证 两 个 搜索 的 边界 真正 相交 。 举 例 来 说 ， 在 两 
个 方向 上 的 深度 优先 搜索 不 一 定 能 够 很 好 地 起 作用 ， 因 为 它 可 能 会 因为 其 较 小 的 搜索 边界 
而 相互 错过 相交 。 在 两 个 方向 上 的 宽度 优先 搜索 可 以 保证 相交 。 

一 个 方向 深度 优先 搜索 结合 另 一 个 方向 宽度 优先 搜索 可 以 保证 所 需要 的 搜索 边界 的 相 
Z, 但 是 在 哪个 方向 上 选择 用 哪 种 方法 很 困难 。 这 取决 于 宽度 优先 节省 的 花费 以 及 搜索 检 
查 深度 优先 搜索 何 时 与 其 元 素 相交 的 花费 。 

在 有 些 情况 下 ， 双 向 搜索 可 以 节省 很 多 。 例如， 如 果 前 向 分 支 系 数 和 后 向 分 支 系数 都 
是 6， 目标 节点 的 深度 是 有， 那么 宽度 优先 搜索 花费 的 时 间 与 福成 比例 ， 然 而 一 个 对 称 双 
向 搜索 花费 的 时 间 与 26“ 成 比例 。 即 使 时 间 复 杂 度 仍然 是 指数 级 它 以 指数 函数 形式 节省 
时 间 。 注 意 ， 这 种 复杂 性 分 析 需 要 假设 找到 相交 点 是 无 需 代价 的 ， 在 很 多 应 用 中 这 种 假设 
可 能 不 成 立 ( 见 习题 3. 10) 。 

2. 岛 驱动 搜索 

一 种 使 搜索 更 有 效 的 方式 是 找到 有 限 的 向 前 和 向 后 搜索 可 以 相交 的 地 方 ， 例 如 ， 找 到 
不 同 楼 层 的 两 间 房 间 之 间 的 通路 ,合适 的 搜索 限制 可 能 是 先 去 其 中 一 个 楼 层 的 电梯 ,然后 
到 目标 楼 层 的 那个 电梯 。 直 觉 上 ， 这 些 指 定 的 位 置 在 搜索 图 上 就 像 一 些 岛 (island)， 它 们 
被 限定 在 从 起 始 节点 到 目标 节点 的 解 路 径 上 。 

当 岛 确定 了 ，Agent 可 以 将 一 个 搜索 问题 分 解 为 几 个 子 问 题 ， 例 如， 一 个 从 初始 房间 
到 电梯 ， 一 个 从 某 一 层 的 电梯 到 另外 一 层 的 电梯 ， 一 个 从 电梯 到 目标 房间 。 通 过 三 个 更 简 
单 的 问题 求解 就 缩小 了 搜索 空间 。 这 些 更 小 问题 减少 了 大 搜索 的 组 合 爆炸 ， 这 也 是 个 很 好 
的 例子 ,说 明了 问题 的 额外 信息 如 何 提 高 搜索 的 效率 。 

为 使 用 岛 来 找到 s Me 之 间 的 一 条 路 径 ， 需要: 
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1) if KE — FF HK) ih tgs “**9 tyes 

2) RAM s Bios MA ia GGH ISk), Ki Be 的 路 径 。 

每 一 个 搜索 问题 应 该 比 总 的 问题 更 简单 ， 因 此 更 容易 解决 。 

岛 的 识别 可 能 是 我 们 从 图 中 无 法 获得 的 额外 信息 。 使 用 不 适当 的 岛 可 能 使 间 题 更 复杂 
(甚至 不 可 解决 )。 通 过 选择 不 同 岛 集 ， 我 们 可 以 将 问题 分 解 为 另外 一 组 子 问题 ， 并 通过 可 
能 的 岛 室 间 进 行 搜索 。 在 实际 使 用 中 是 和 否 适 用 取决 于 问题 的 细节 。 

3. 抽象 层次 搜索 

岛 的 概念 可 以 用 来 定义 在 细节 上 的 多 个 层次 或 者 抽象 的 多 个 层次 上 所 使 用 的 问题 求解 
策略 。 
抽象 层次 上 的 搜索 的 思想 首先 涉及 问题 的 抽象 ， 尽 可 能 去 掉 细 节 。 我 们 可 能 找到 问题 
的 部 分 解 : 它 的 解 需要 进一步 的 细节 。 例 如 ， 从 一 个 房间 到 另 一 个 房间 的 问题 ， 需 要 使 用 
多 次 转身 ， 但 是 Agent 喜欢 从 一 个 抽象 层次 推理 问题 ， 其 中 实际 转向 的 细节 被 省 略 了 。 我 
们 期 望 适当 的 抽象 解决 能 从 广义 角度 解决 问题 ， 只 剩 下 一 些小 问题 还 需要 解决 。 像 传递 机 
器 人 的 路 径 规划 问题 ， 不 省 略 细节 的 搜索 求解 很 困难 ， 除 非 必 须 考 虑 它们 。 

这 种 方法 的 实现 可 以 通过 岛 驱 动 搜索 找到 可 能 的 岛 。 一旦 在 岛 层 次 上 找到 一 个 解 ， 子 
问题 就 可 以 同样 的 方式 通过 递归 解决 了 。 在 低层 次 发 现 的 信息 可 以 通知 高 层次 ， 其 中 的 某 
些 可 能 解 不 如 期 望 的 那么 好 。 高 层次 可 以 使 用 这 些 信息 重新 规划 ， 这 个 过 程 通常 不 能 保证 
最 优 解 ， 因 为 它 只 考虑 一 些 高 层次 的 分 解 。 

在 抽象 层次 的 搜索 很 大 程度 上 取决 去 怎样 分 解 和 抽象 要 解决 的 问题 。 一 旦 问题 被 抽象 
和 分 解 出 来 ， 任 何 搜索 方法 都 能 用 来 解决 它们 。 然 而 ， 识 别 有 用 的 抽象 和 问题 分 解 并 不 
容易 。 


3.7.6 动态 规划 法 


动态 规划 法 是 最 优化 的 一 般 方法 ， 它 可 以 存储 问题 的 部 分 解 ， 所 以 对 于 已 经 发 现 的 解 
可 以 检索 而 不 必 重 新 计算 。 动 态 规划 算法 的 使 用 贯穿 人 工 智能 。 

动态 规划 算法 可 以 用 来 在 图 中 找到 路 径 。 直 觉 上 ， 图 搜索 中 的 动态 规划 (dynamic pro- 
gramming) 可 以 被 看 做 用 来 构造 完美 的 启发 函数 使 得 A" 可 以 保证 找到 解 ， 即 使 它 只 有 边 
界 的 一 个 元 素 。cost_to_goal 函数 表示 每 个 节点 到 目标 节点 的 最 低 花 费 路 径 的 准确 花费 。 

政策 (policy) 用 来 指定 从 每 个 节点 引出 哪 条 弧 。cost_to_goal 函数 可 以 离线 计算 ， 用 来 
建立 最 优 的 政策 。Agent 可 以 利用 这 个 政策 在 线 决 定 在 这 个 节点 做 什么 。 

4> cost_to_goal(n) 是 从 nn 到 目标 节点 的 最 低 花 费 路 径 的 实际 花费 。cost_to_goal(n) 函 
数 可 以 定义 为 : 

邵 果 是 is_goal(n) 

Mina mea (cost ({n,m)) + cost_to_goal(m)) 其 他 

一 般 的 思想 是 从 目标 节点 开始 ， 建 立 一 个 表 存 放 每 一 个 节点 的 cost_to_goal(n) 值 。 这 
可 以 通过 多 路 径 剪 枝 的 最 低 花费 优先 搜索 来 实现 ， 它 从 目标 节点 开始 在 反 向 图 (将 图 中 所 
有 性 的 方向 反 过 来 ) 中 搜索 。 对 于 已 发 现 的 每 个 节点 ， 动 态 规划 算法 记录 其 cost_to_goal 
值 ， 而 不 是 有 一 个 需 搜 索 的 目标 。 使 用 反 向 图 计算 每 个 节点 到 目标 节点 的 花费 ， 而 不 是 从 
目标 到 每 个 节点 。 实 质 上 ， 动 态 规 划 从 目标 节点 进行 逆向 搜索 ， 它 通过 建立 从 图 中 每 个 节 
点 到 目标 节点 的 最 低 花 费 路 径 来 完成 。 

对 于 一 个 特定 的 目标 ,一 旦 每 个 节点 的 cost_to_goal 值 记录 下 来 ，Agent 就 可 以 根据 


cost_to_goal(n) = 
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这 个 值 来 决定 最 优 路 径 的 下 一 段 驱 。 从 节点 元 应 该 选择 这 样 的 邻居 克 ， 它 有 costin, m)) 
十 cost_to_goal(m) HME. BATA, Agent 就 能 沿 着 最 低 花费 路 径 从 任意 节点 直 
到 目标 。 假 设 每 个 节点 有 有 限 邻 居 ， 给 定 cost_to_goal, 决定 哪 段 弧 是 最 优 的 需要 常数 时 
间 ， 该 常数 与 图 的 大 小 有 关 。 动 态 规 划 法 建立 cost_to_goal 表 所 需要 的 时 间 和 空间 与 图 的 
大 小 时 线性 关系 。 

动态 规划 算法 在 下 面条 件 下 是 有 用 的 : 

。 目标 节点 是 显 式 的 (之 前 的 方法 只 假设 一 个 函数 来 识别 目标 节点 ); 

。 需要 一 个 最 低 花 费 路 径 ; 

。 图 是 有 限 的 和 足够 小 的 ， 能 够 存储 每 一 个 节点 的 cost_to_goal 值 ; 

。 目标 不 经 常 变化 ; 

。 政策 对 于 每 个 目标 可 以 使 用 多 次 ,产生 cost_to_goal 值 的 花费 可 以 分 挫 到 很 多 实例 

问题 上 。 

动态 规划 搜索 的 主要 问题 是 : 

。 只 有 当 图 有 限 ， 而 且 表 能 小 到 适应 于 内 存 时 ， 这 个 方法 才 有 效 。 

。 对 于 每 一 个 不 同 的 目标 ，Agent 必须 重新 计算 政策 。 

。 需要 的 时 间 空 间 线 性 于 图 的 大 小 ， 对 于 有 限 的 图 来 说 ， 图 的 大 小 通常 是 路 径 长 度 


的 指数 形式 。 
【 例 3-18) 对 于 图 3-2， 从 7123 到 目标 节点 的 花费 是 0， 因 此 
cost_to_goal (r123) = 0 
继续 从 7123 使 用 最 低 花 费 优 先 搜 索 
cost_to_goal (0123) = 4 
cost_to_goal (0119) = 13 
cost_to_goal (0109) = 29 


cost_to_goal (b4) = 36 

cost_to_goal (62) = 39 

cost_to_goal (0103) = 41 

cost_to_goal (b3) = 43 

cost_to_goal (b1) = 45 

到 这 个 阶段 向 后 搜索 停止 了 。 这 里 注意 两 点 : 首先 ， 如 果 一 个 节点 没有 cost_to_goal 
值 ， 那 么 不 存在 从 该 节点 到 目标 节点 的 路 径 ; 其 次 ，Agent 可 以 很 快 地 确定 任意 一 个 节点 
到 目标 节点 的 最 低 花费 值 路 径 的 下 一 段 弧 。 例 如 ， 如 果 Agent 在 0103， 决 定 到 r123 的 最 
低 花 费 路 径 ， 需 要 比较 4 十 43( 通 过 b3 的 花费 ) 和 12 十 29( 直 接 到 0109 的 花费 )， 可 以 很 快 
决定 去 o109。 < 

当 建 立 cost_to_goal 函数 时 ， 搜 索 者 会 隐 式 地 决定 选择 哪个 邻居 到 达 目 标 ， 它 不 是 在 
运行 时 就 确定 哪个 邻居 在 最 优 路 径 上 ， 而 是 储存 该 信息 。 

动态 规划 搜索 可 以 用 来 为 A 算法 和 分 支 界限 算法 建构 启发 信息 。 构 建 启发 函数 的 一 
种 方式 是 简化 问题 (如 去 掉 一 些 细节 )， 直 到 被 简化 的 问题 有 一 个 足够 小 的 状态 空间 。 动 态 
规划 算法 可 以 用 来 在 简化 了 的 问题 中 找到 最 优 的 路 径 。 这 个 信息 也 可 以 用 来 作为 原始 问题 
的 启发 信息 。 


A` 算法 的 最 优 性 
对 于 一 个 搜索 算法 ， 如 果 不 存在 能 使 用 更 少 的 时 间或 空间 或 扩展 更 少 的 节点 的 其 他 算 
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法 ， 同 时 保证 解 的 质量 ， 那 么 这 个 算法 就 是 最 优 的 (optimal)。 最 优 搜索 算法 每 次 都 会 选择 
正确 的 节点 。 然 而 ， 因 为 我 们 不 能 直接 实现 它 ， 斯 以 这 个 算法 的 详细 说 明 并 不 有 效 。 这 样 
一 个 算 法 是 否 能 实现 是 一 个 开放 问题 (就 像 是 否 P= 二 NP)。 然 而 ,似乎 有 一 个 能 被 证 明 的 
陈述 。 

A -的 最 优 性 (optimality of A* ): 在 只 使 用 弧 花 费 和 从 起 始 节 点 到 目标 节点 范 费 的 家 
发 式 估计 的 搜索 算法 中 ， 没 有 算法 能 比 4 算法 扩展 更 少 的 节点 并 保证 能 找到 最 低 花 费 
路 径 。 i 

证 明 概述 : 除非 算法 扩展 了 每 一 个 路 径 ， 这 里 f(p) 低 于 最 优 政 径 的 花费 ， 否则 只 给 
定 统 线 花费 以 及 户 发 信息 ， 我们 不 知道 力 是 否 是 一 条 最 低 花 费 的 路 径 。 更 正式 地 ， 假 设 一 
个 算法 4 找到 了 问题 王 的 解 ， 这 里 某 些 路 径 妨 没有 扩展 ,这样 fC(p) 小 于 找到 的 解 。 假 设 
有 荔 一 个 问题 了， 除了 有 一 条 花费 为 /(p) 的 通过 力 的 路 径 ， 其 他 与 问题 P 一 样 。 算 法 A' 
不 能 分 辨 P' 和 也， 因为 它 不 扩展 路 径 p， 所 以 它 对 问题 P' 会 返回 各 了 一样 的 解 ， 但 是 对 
于 找到 的 解 对 于 PP' 来 说 不 是 最 优 解 ， 因 为 这 个 解 比 经 过 少 的 路 径 有 更 高 的 花费 。 因 此 ， 
算法 不 能 保证 找到 最 低 花费 的 路 径 ， 除 非 它 找到 所 有 的 了 值 比 最 优 路 径 低 的 路 径 ， 这 样 就 
必须 找到 A" 所 找到 的 所 有 的 路 径 。 

反例 : 尽管 这 个 证 明 似 乎 合理 ， 但 是 有 的 咎 法 扩展 更 少 的 节点 。 考 虑 一 个 算法 ， 它 使 
HRA 算法 的 向 前 搜索 以 及 向 后 的 动态 规划 搜索 方法 ， 这 两 种 方法 在 某 些 方面 是 交叉 进 
行 的 (例如 ， 向 前 和 向 后 交叉 进行 )。 向 后 的 搜索 会 建立 一 个 表 : cost_to_goal(n), HA 
从 nn 到 目标 节点 的 实际 花费 ， 它 有 边界 值 b， 它 已 经 扩展 了 所 有 到 目标 花费 低 于 怠 的 路 径 。 
向 前 搜索 使 用 cost( 轧 ) 十 cln) 上 的 优先 级 队列 ， 这 里 妈 是 路 径 户 的 最 后 一 个 节点 "如果 这 
个 值 已 经 算出 cn) Æ cost_to_goal(n), El c(n) 是 maxz(h(n)， b), EXE, mR AKB 
的 最 后 一 个 节点 思 到 目标 节点 存在 路 径 ， 或 者 它 使 用 向 后 搜索 已 经 扩展 的 小径 ， 或 者 使 用 
花费 至 少 为 已 的 路 径 。 这 个 算法 保证 能 找到 最 低 花 费 的 路 径 ， 扩 展 比 "更 少 的 节点 (见习 
题 3. 11)。 

总 结 : 上 面 的 反例 似乎 意味 着 A "的 最 优 性 是 错误 的 。 然 而 ， 证 明 也 有 一 定 的 吸引 办 ， 
这 不 应 被 彻底 忽视 。A "不 是 所 有 算法 中 最 优 的 ， 但 是 对 于 所 有 向 前 搜索 的 方法 ， 这 个 证 
明 似 乎 是 正确 的 (见习 题 3. 12)。 


3. 8 “本章 小 结 


， 许多 实际 问题 可 以 抽象 为 在 图 中 进行 路 径 搜 索 的 问题 。 

， 宽度 优先 搜索 和 深度 优先 搜索 可 以 在 没有 任何 图 以 外 的 额外 信息 的 情况 下 通过 图 来 找到 路 径 ， 

* A“ 搜 索 可 以 使 用 启发 函数 ,来 估计 从 一 个 节点 到 目标 节点 的 花费 。 如 果 这 个 估计 低 于 实际 花费 ， 
4 能 保证 找到 最 低 花费 路 径 。 

” 和 迭代 深化 搜索 和 深度 优先 分 支 界 限 搜索 可 以 用 来 找到 最 低 花 费 路 径 ， 且 能 比 像 A" 之 类 的 算法 节 
省 更 多 的 内 存 ， 因 为 A" 算法 会 储存 多 条 路 径 。 

。 当 图 很 小 的 时 候 ， 动 态 规划 搜索 可 以 用 来 纪录 从 每 一 个 节点 到 目标 节点 的 最 低 花 费 路 径 的 实际 花 
Bt. 这 可 以 用 来 找到 最 优 路 径 的 下 一 段 弧 。 


3.9 参考 文献 及 进一步 阅读 


在 运筹 学 研究 、 计 算 机 科学 、 人 工 智 能 等 领域 有 很 多 有 关 搜索 技术 的 文献 。 搜 索 早 期 被 认为 是 人 工 
智能 基础 。 人 工 智能 强调 启发 式 搜索 。 
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基础 的 搜索 算法 讨论 可 参考 Nilsson[ 1971] 。Pearl[1984J 中 有 详细 的 启发 式 搜索 方法 。Hart、Nilsson 
和 Raphael[1968] 中 有 A" 算法 的 进一步 探讨 。 

Korf[L1985] 中 有 关于 深度 优先 迭代 深化 搜索 的 描述 。 

分 支 界限 搜索 方法 在 运筹 学 研究 中 有 进一步 探讨 ， 在 Lawler 和 Wood[ 1966 HA Hi. 

动态 规划 算法 是 一 种 通用 算法 ,在 本 书 的 其 他 部 分 作为 双重 搜索 方法 。 这 种 特殊 算法 是 Dijkstra 
[1959] 最 先 提出 的 。Cormen、Leiserson、Rivest 和 Stein[ 2001J 有 关于 动态 规划 这 类 算法 的 更 多 详细 
介绍 。 

Culberson 和 Schaeffer[1998] 首 先 提出 使 用 动态 规划 算法 作为 A' 搜索 的 启发 信息 这 一 思想 。Felner、 
Korf 和 Hanan[2004] 有 更 深入 的 介绍 。 

MinskyL1961] 讨 论 了 岛 算 法 和 问题 简化 思想 。 


3.10 “习题 


3.1 评论 下 面 的 话 ， 人 工 智能 的 一 个 主要 目标 是 为 图 搜索 问题 建立 一 般 的 启发 信息 。 
3.2 ”在 边界 中 的 任 一 元 素 被 选中 这 一 方面 来 说 ， 哪 一 种 路 径 搜 索 程序 是 公平 的 ? 在 没有 环 路 的 有 限 图 ， 
或 者 有 环 路 的 有 限 图 ， 或 者 无 限 图 (有 有 限 的 分 支 元 素 ) 中 考虑 这 个 问题 。 
3.3 看 图 3-13 的 在 网 格 中 寻找 路 径 的 问题 ， 要 找 的 是 从 :到 g 的 路 径 。 可 以 在 水 平方 向 和 竖 直 方向 上 移 
动 ， 一 次 只 能 一 个 方向 。 阴 影 部 分 表示 禁止 移动 。 
(a) 在 图 3-13 的 网 格 中 ,为 从 5 到 g 的 深度 优先 搜索 的 路 径 上 各 个 扩 
展 的 节点 标号 。 操 作 的 顺序 是 上 、 左 、 右 、 下 。 假 设 有 循环 检查 。 一 一 
(b) 对 于 同样 的 网 格 ， 标 号 扩展 的 节点 ， 是 为 了 得 到 从 s Bl g 的 最 优 
. 优先 搜索 解 。 曼 哈 顿 距离 应 当 作 为 评价 函数 。 曼哈顿 距离 是 两 点 
的 工 轴 方 向 上 的 距离 加 上 y 轴 方向 上 的 距离 。 它 对 应 的 是 在 网 格 
中 沿 着 城市 旅游 。 假 设 有 多 路 径 剪 枝 ， 那 么 发 现 的 第 一 条 路 径 是 
NZ? 
O AFREK RSTRNT EITEAN: Be WAR 
式 深度 优先 搜索 解 。 曼 哈 顿 距离 作为 评价 函数 。 假 设 存在 路 径 循 
环 检查 ， 那 么 找到 的 路 径 是 什么 ? 图 3-13 一 个 格 搜索 问题 
Cd) 用 A" 搜索 方法 标号 节点 的 顺序 ， 使 用 多 路 径 剪 棱 ， 找 到 的 路 径 是 什么 ? 
(e) 描述 用 动态 规划 算法 如 何 解决 相同 问题 。 给 出 每 个 节点 的 dist 值 ， 描 述 找 到 的 路 径 。 
O 按照 经 验 ， 哪 种 搜索 方法 最 适合 这 个 问题 ? 
(g) 假设 图 在 各 个 方向 上 延伸 。 也 就 是 说 ， 这 个 图 没有 界限 ， 但 是 ;s、g 和 那些 阴影 障碍 物 都 在 相 
同 的 地 方 。 用 哪 种 方法 会 找 不 到 路 径 ? 哪 种 是 最 好 的 方法 ? 为 什么 ? | 
3.4 al LE (0 FI OK LMR. BL eT BEE. A E KENE, 
如 下 : 





片段 KE 包含 的 主题 
segû 10 [welcome] 
segl 30 [skiing, views] 
seg2 50 [ welcome, artificial_intelligence, robots | 
seg3 40 [graphics, dragons | 
seg4 50 [skiing, robots] 
假设 一 个 节点 包含 一 对 元 素 : 
(To_Cover, Segs) 
这 里 Segs 是 必须 要 表示 出 来 的 一 个 列表 ，To_Cover 也 是 必须 表示 的 一 系列 主题 。 假 设 没有 列表 包 
含 任何 一 个 To_Cover. 
节点 的 邻居 通过 To_Cover 进行 选择 。 对 于 每 一 个 列表 有 邻居 包含 已 经 选择 的 主题 。( 这 部 分 作 
用 是 要 考虑 这 些 相 邻 点 的 确切 结构 .) 


105 
t 
106 


3.5 


3.6 
3:7, 


3.8 


3.9 
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lin, Bi ERA. WA <Lwelcome, robots], CI M48 BEL], Cseg2]) M<Lrobors |, 

Lseg0])， 假设 选 择 了 welcome. 
因此 ， 每 一 个 弧 线 添加 一 段 ， 但 是 可 以 包含 一 个 或 多 个 主题 。 假 设 弧 线 的 成 本 等 于 片段 添加 的 

时 间 ， 
目标 是 设计 一 个 描述 ， 包含 了 MustCover 所 有 的 主题 。 起 始 节点 是 (MustCouer，[]>》， 目 标 节 

点 是 ([]，Presentation》。 从 起 始 节点 到 目标 节点 的 花费 值 是 这 个 描述 的 时 间 。 因 此 ， 最 优 的 描述 

是 包含 了 MustCover 所 有 的 主题 的 最 短 的 描述 。 

(a) 假设 目标 包含 了 所 有 主题 [welcome，skiings robots]。 假 设 算法 总 是 选择 每 个 节点 最 左边 的 主 
题 为 其 查找 邻居 。 画 出 最 低 花 费 优 先 算法 所 有 扩展 的 节点 直到 找到 最 终 的 解 。 这 就 会 显示 所 有 
扩展 的 节点 ， 到 找到 目标 节点 时 ， 边界 就 会 出 现 。 

b) 给 定 一 个 非 平 凡 的 启发 函数 hh， 它 是 实际 花费 的 低估 值 。( 注 意 对 于 所 有 的 节点 及 (7) 二 0 是 平凡 
的 启发 函数 .) 它 满足 启发 函数 的 单调 性 质 吗 ? 

画 出 两 个 不 同 的 图 ， 标 出 初始 节点 和 目标 节点 ， 其 中 一 个 图 表示 向 前 搜索 比 向 后 搜索 好 ， 另 外 一 个 

图 表示 向 后 搜索 比 向 前 搜索 好 ， 

实现 迭代 深化 4" 算法。 基于 图 3-10 中 的 迭代 深化 搜索 方法 。 

假设 我 们 要 找 一 个 从 初始 节点 到 目标 节点 的 路 径 ， 不 是 寻找 最 优 路 径 ， 而 是 寻找 花费 值 比 最 低 花 费 

多 10% 的 路 径 。 建 议 迭 代 深 化 A“ 算法 的 替代 方法 可 以 得 到 解 。 为 什么 这 有 利于 连 代 深化 A" 搜索 ? 

如 何 修改 深度 优先 分 支 界 限 搜索 方法 ， 来 找到 花费 值 比 最 低 花费 多 10% 的 路 径 。 这 个 算法 与 上 面 

一 题 中 的 A* 算法 的 优化 方案 相 比 怎么 样 ? 

对 于 和 迭代 深化 搜索 的 分 母 !" 一 1， 当 51 时 ， 这 就 不 是 一 个 很 好 的 近似 。 给 出 一 个 当 5 一 1 时 更 好 的 

迭代 深度 复杂 性 的 估计 。 这 一 章 中 其 他 算法 的 复杂 度 怎么 算 ? 提示 : 分 支 系数 越 接近 1， 和 迭代 深化 

的 分 母 越 小 。 


3. 10 双向 搜索 必须 确保 何 时 两 个 边界 相交 。 为 下 面 每 个 决定 确定 何 时 相交 : 


3l 


(a) 宽度 优先 搜索 和 深度 界限 深度 优先 搜索 。 
Ch) 和 迭代 深化 搜索 和 深度 界限 深度 优先 搜索 。 
(c) A' 算法 和 深度 界限 深度 界限 搜索 。 

(d) A* 算法 和 A" 算法 。 

1 考虑 前 面 3. 7. 6 节 中 “A“" 算法 的 最 优 性 ?处 讨论 的 反例 的 算法 ， 回 答 : 
(a) 什么 时 候 算法 停止 ?〈 提 示 : 到 向 前 搜索 找到 目标 ， 算 法 才 会 停止 。) 
Cb) 应 该 保留 什么 样 的 数据 结构 ? 

(c) 完整 的 描述 算法 。 
(d) 描述 怎么 样 找到 最 优 路 径 。 
Ce) 给 出 一 个 例子 说 明 它 扩展 了 比 4 少 ( 多 ) 的 节点 。 


3.12 RRA 算法 的 最 优 性 ， 对 于 指定 算法 的 种 类 ，A" 是 最 优 的 。 给 出 证 明 。 
3. 13 3-11 中 深度 优先 分 支 界限 搜索 方法 类 似 于 深度 界限 搜索 。 因 为 它们 都 是 如 果 花 费 低 于 界限 值 


时 ， 只 找到 一 条 解 路 径 。 对 于 一 个 特定 的 深度 界限 ， 如 果 没 有 解 ， 它 是 怎样 结合 迭代 深化 搜索 来 
增加 深度 界限 的 ? 如 果 没 有 解 ， 在 有 限 图 中 ， 算 法 会 返回 一 个 上 。 算 法 应 当 允 许 界 限 任意 增加 ， 
然后 当 解 存在 时 ， 返 回 最 优 ( 最 低 花 费 ) 的 路 径 。 
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特征 和 约束 





每 项 任务 都 会 有 其 约束 的 一 面 ， 要 想 毫 无 她 言 地 解决 问题 ， 需 要 依靠 一 些 神 奇 的 连接 
和 链条 来 松弛 僵化 的 大 脑 。 虽 然 它 们 限定 了 条 条 框框 ， 却 又 神奇 地 解放 了 思维 。 


James Falen 





根据 特征 来 描述 状态 ， 然 后 基于 这 些 特 征 进 行 推理 ， 这 种 推理 方式 一 般 情 况 下 会 比 用 
状态 显 式 推理 获得 更 好 的 效果 。 通常 这 些 特征 是 非 独 立 的 ， 并 且 存 在 硬 约束 (hard 
constraint) ， 这 些 硬 约束 指定 了 变量 赋值 的 合法 组 合 。 正 如 Falen 在 诗 中 强调 ， 发 现 并 利 
用 这 些 约 束 去 解决 问题 。 在 规划 和 调度 问题 中 常常 有 这 类 范例 ， 例 如 智能 体 (Agent) 必 须 
为 每 个 确定 执行 的 动作 分 配 一 个 时 间 ， 在 这 些 被 执行 的 动作 中 则 存在 时 间 上 的 约束 ， 并 且 
这 些 约束 说 明了 多 个 动作 必须 完成 一 个 实际 目标 。 除 硬 约束 外 ， 也 存在 软 约束 (soft 
constraint)， 这 些 软 约束 可 以 指定 一 些 具体 的 偏好 值 。 本 章 将 说 明 如 何 生成 满足 硬 约束 的 
赋值 和 如 何 最 优化 一 个 软 约 束 集合 。 


4.1 特征 和 状态 


任何 实际 问题 都 可 能 存在 大 量 的 状态 ， 所 以 Agent 不 能 根据 其 状态 进行 推理 。 而 且 ， 
大 多 数 问 题 不 会 配备 一 个 明确 的 状态 列表 ， 这 些 状态 往往 是 由 一 些 隐 含 的 特征 (feature) 所 
描述 。 当 描述 一 个 真实 的 状态 空间 时 ， 通常 是 描述 组 成 状态 的 特征 ， 而 不 是 直接 枚 举 各 个 
状态 。 

特征 和 状态 的 定义 是 交织 关联 的 ， 因 此 可 以 通过 其 中 一 个 对 另 一 个 进行 描述 性 的 
定义 。 

。 根据 特征 ， 状 态 可 以 被 定义 为 : 特征 作为 基 元 ， 一 个 状态 则 对 应 了 每 一 个 特征 的 

一 种 赋值 。 
© 根据 状态 ， 特 征 可 以 被 定义 为 :状态 作为 基 元 . 一 个 特征 是 状态 构成 的 一 个 函数 。 
对 于 给 定 的 状态 ， 函 数 返 回 该 状态 下 的 特征 值 。 

每 一 个 特征 都 有 一 个 域 (domain) ， 这 个 域 是 它 可 取 值 的 集合 。 特 征 的 域 就 是 在 全 体 状 
态 下 函数 的 值 域 。 

KB 4-11] 在 图 1-8 的 电气 环境 中 ， 每 一 个 形容 上 、 下 的 开关 位 置 都 有 可 能 被 看 做 是 
一 个 特征 。 每 一 个 形容 灯泡 亮 或 灭 的 灯泡 位 置 也 有 可 能 被 看 做 是 一 个 特征 。 每 一 个 说 明 其 
正常 工作 还 是 中 断 的 组 件 都 可 以 被 看 做 是 一 个 特征 。 一 个 状态 包含 了 每 个 开关 的 位 置 、 每 
个 设备 的 情况 ， 等 等 。 

如 果 将 特征 作为 基 元 ， 一 个 状态 就 是 为 每 个 特征 赋值 。 例 如 ， 一 个 状态 可 以 被 这 样 描 
R: 开关 工 置 上 ， 开 关 2 置 下 ， 保 险 丝 1 正常 ， 导 线 3 中 断 ， 等 等 。 

如 果 将 状态 看 成 林 元 ， 函 数 可 以 举例 为 开关 1 位 置 。 这 个 位 置 是 一 个 状态 函数 ， 在 某 
些 状态 下 它 处 于 置 上 ， 其 余 的 状态 下 它 处 于 置 下 。 < 

根据 特征 进行 推理 的 主要 的 优势 在 于 节省 了 计算 量 。 例 如 ， 一 个 三 元 特征 (binary 
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feature) 的 域 有 两 个 取 值 ， 那 么 由 少量 的 特征 就 能 产生 大 量 的 状态 : 

© 10 个 二 元 特征 可 以 表示 2" 二 1 024 个 状态 。 

。 20' 个 三 元 特征 可 以 表示 2° =1 048 576 个 状态 。 

。 30 个 二 元 特征 可 以 表示 2° =1 073 741 824 个 状态 。 

© 100 个 三 元 特征 可 以 表示 2° =1 267 650 600 228 229 401 496 703 205 306 个 状态 。 

根据 30 个 特征 进行 推理 要 比 根据 超过 10 亿 个 状态 推理 简单 得 多 。100 个 特征 不 算 多 ， 
但 是 要 是 用 2 个 状态 进行 推理 很 明显 是 不 可 能 的 。 很 多 问题 都 有 数 千 或 者 数 百 万 的 特征 
(这 种 情况 ， 用 状态 推理 更 是 不 可 能 的 )。 

通常 特征 是 非 独立 的 ， 因 为 在 不 同 特征 的 取 值 上 可 能 存在 约束 。 考 虑 给 定 的 特征 和 约 
束 来 确定 可 能 的 状态 成 为 一 个 重要 问题 。 


4.2 可 能 世界 、 变 量 和 约束 


为 了 保持 形式 上 的 简化 和 通用 ， 在 展开 特征 的 概念 中 没有 明确 地 考虑 时 间 ( 约 束 )。 本 
节 将 根据 可 能 世界 的 概念 来 描述 约束 满足 问题 。 

不 更 改建 模 的 情况 下 ， 在 变量 和 特征 中 存在 一 对 一 的 直接 对 应 ， 这 种 对 应 同样 存在 于 
状态 和 可 能 世界 之 间 。 

可 能 世界 (possible world) 是 世界 (真实 世界 或 虚幻 世界 ) 存 在 的 一 种 可 能 方式 。 例 如 ， 
当 表 述 一 个 填 字 游戏 时 ， 可 能 世界 则 对 应 了 填 字 游戏 被 填写 的 方式 。 在 电气 环境 中 ， 可 能 
世界 则 是 指 每 个 开关 的 位 置 ( 置 上 或 置 下 ) 和 每 个 设备 的 状态 (正常 或 中 断 )。 

代数 变量 (algebraic variable) 经 常 被 看 作 是 表达 可 能 世界 特征 的 符号 ， 因 此 可 能 世界 
可 用 代数 变量 进行 表达 。 代 数 变 量 通 常 以 大 写字 母 开 头 ， 并 且 每 个 代数 变量 V 都 有 一 个 关 
联 的 域 ， 记 做 dom(V)， 这 个 域 是 变量 可 取 值 的 集合 。 

本 章 中 所 提 及 的 代数 变量 可 以 被 简单 地 理解 为 变量 (variable)。 而 代数 变量 和 变量 在 
逻辑 上 的 区 别 将 在 第 12 章 进 行 讨论 。 在 第 6 章 将 说 明代 数 变量 和 随机 变量 在 概率 理论 中 
是 相同 的 。 

离散 变量 (discrete variable) 的 域 是 有 限 的 或 者 是 可 数 无 限 的 。 例 如 离散 变量 的 一 个 实 
例 是 二 元 变量 (boolean variable), EAI (true, false}, WE X 是 一 个 二 元 变量 ， 书 写 
时 用 工 来 等 价 表示 它 的 大 写 体 XX 二 true， H TRI X= false。 当 然 对 应 离散 变量 也 存在 非 
离散 变量 ， 例 如 一 个 变量 的 域 对 应 了 实数 线 上 的 一 个 子 集 ， 则 这 个 变量 是 连续 变量 
(continuous variable) 。 

LBJ 4-2] 作为 一 个 特定 的 类 ,课堂 时 间 (Class_time) 这 一 变量 可 以 由 起 始 时 间 来 表 
达 。 那 么 课堂 时 间 的 域 可 用 如 下 的 一 组 时 间 的 集合 表达 ， 

dom(Class_time) = {8,9,10,11,12,1,2,3,4;5) 

Joe 的 身高 (Height_joe) 这 一 变量 指 的 是 一 个 具体 的 人 在 一 个 具体 时 间 的 身高 ， 而 它 
的 域 则 是 一 定 身高 范围 内 以 厘米 为 单位 的 实数 集合 。 如 果 在 一 个 具体 时 间 正 在 下 雨 ， 那 么 
下 雨 (Raining) 可 以 被 看 做 是 一 个 二 元 随机 变量 ， 此 时 这 个 变量 取 值 为 trues < 

【 例 4-3) 考虑 图 1-8 中 所 描述 的 电气 系统 的 域 ; 

。 S\_pos 可 以 被 认为 是 表示 开关 S 位 置 的 离散 二 元 变量 ， 它 的 域 是 {up，dorwn}。 

当 S1_pos 二 wp 时 ， 表 示 开 关 Sı BE; 4 S _pos=down 时 ， 表 示 开 关 Si BE. 

。 Si_st 可 以 被 认为 是 表示 开关 Si RASH. CMBR (ok, upside down, short, 

intermittent, broken), 4 S,_st=ok HL, 开关 Si 正常 工作 ; 当 S,_st=upside_ 
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down 时 ， 开 关 S 被 倒置 安装 ; 当 S;_st—short 时， 开关 Si 短路 并 相当 于 一 根 导 
线 ; 当 S,_st=intermittent 时 ， 开 关 S, 间断 性 工作 ; 当 S， st 二 broken HY, FFX S, 
中 斯 ， 不 允许 电流 通过 。 

。 Number_of_broken_switches 是 一 个 整数 值 变量 ， 它 代表 着 中 断 的 开关 数 。 

。 Current_w 是 一 个 实 值 变量 ， 它 代表 着 当前 通过 w 导线 的 安培 数 。 当 Current_w,= 
1. 3 时， 表示 当前 有 1. 3 安培 通过 w 导线 。 在 变量 和 常量 中 也 允许 不 等 式 作为 二 元 特 

， 征 ; PAR, Current_w,>1.3 HAH, KEEDA 1. 3 安培 通过 w 导线 。 < 


符号 和 语义 

代数 变量 是 符号 。 

有 别 于 其 他 符号 ， 在 计算 机 内 部 符号 (symbol) 是 一 个 二 进 制 序列 。 一 些 符 号 有 其 图 有 
的 解释 ， 例 如 ， 表达 数字 的 符号 和 表达 文字 的 符号 。 而 在 程序 设计 语言 中 一 些 符号 没有 固 
ZHE. Æ Java 语言 中 ， 从 Java 1.5 版 本 开始 它们 被 称 为 枚 举 类 型 (enumeration type). 
在 LISP 语言 中 ， 指 的 是 原子 (atom)。 通 常情 况 下 ， 它 们 以 索引 的 方式 被 应 用 在 给 出 打印 
名 字 的 符号 表 中 。 在 这 些 符号 中 唯一 的 操作 是 判断 两 个 符号 是 否 相 同 。 

对 于 计算 机 用 户 来 说 ， 符 号 是 有 意义 的 。 当 用 户 输入 约束 或 者 解 译 输 出 结果 的 关联 意 
义 时 ， 需 要 借助 组 成 约束 和 输出 结果 的 符号 。 用 户 将 符号 和 和 概念、 目标 联系 到 一 起 。 例 
w, a Fi RAL, BE HarrysHeight 仅仅 是 一 个 二 进 制 序列 ，HarrysHeight 和 
SuesHeight 没有 关联 。 对 于 一 个 人 来 说 。 这 可 能 是 在 具体 时 间 下 某 人 在 具体 单位 上 的 
身高 。 

变量 - 值 这 样 一 个 配对 的 相关 意义 必须 满足 明晰 性 原则 (clarity principle): 一 个 全 知 矢 
能 体 (omniscient Agent) 一 一 即 一 个 虚构 的 Agent， 该 Agent 知道 和 所 有 符号 关联 的 意义 
和 真理 这 个 Agent 可 以 决定 每 一 个 变量 的 值 。 例 如， 如 果 这 个 具体 的 人 被 提 及 ， 并 且 
具体 时 间 和 单位 被 指定 ， 那 么 heightof Harry 满足 明晰 性 原则 。 例 如 ， 以 厘米 为 单位 我 
们 可 以 推理 J.KK. PHBE OB + REM Harry Potter 的 身高 。 这 和 以 英寸 为 单位 在 同 
本 书 中 尾声 部 分 的 Harry Potter 的 身高 是 有 区 别 的 (尽管 它们 之 间 肯 定 是 有 联系 的 )。 如 时 
想 查阅 在 这 两 个 不 同时 间 的 Harry 的 身高 ， 则 必须 有 两 个 不 同 的 变量 。 

当 声明 约束 时 ， 必 须 有 统一 的 含义 ， 也 就 是 说 ， 对 于 相同 的 变量 和 相同 值 必 须 被 赋予 
相同 的 含义 ， 并 且 可 以 用 这 个 含义 去 解禁 输出 。 

这 段 文字 最 主要 的 内 容 是 说 明 符号 是 有 含义 的 ， 因 为 赋予 了 它 意义 。 对 于 本 章 来 说 ， 假 
设计 算 机 不 知道 符号 的 含义 。 一 个 计算 机 只 有 通过 感知 和 操纵 环境 ， 才 能 知道 符号 的 含义 。 


【 例 4-4] 填 字 游戏 是 一 个 经 典 的 约束 满足 问题 。 根 据 变量 填 字 游戏 有 如 下 两 种 不 同 
的 表达 : 

1) 一 种 表达 是 将 能 够 表达 字 方 向 ( 横 或 纵 ) 的 方 格 进行 标号 ， 将 这 些 具 有 编号 的 方 格 
作为 变量 ， 变 量 的 域 则 是 一 组 可 能 被 填写 的 字 的 集合 。 对 于 每 个 变量 ， 一 个 可 能 世界 则 对 
应 了 每 个 字 的 一 种 赋值 。 

2) 另 一 种 表达 是 把 每 个 单独 的 方 格 ( 非 编 号 ) 当 做 变量 ， 每 个 变量 的 域 是 字母 表 中 字 
母 的 集合 。 每 个 方 格 内 填写 一 个 字母 对 应 了 可 能 世界 。 < 

根据 变量 定义 可 能 世界 或 者 根据 可 能 世界 定义 变量 : 

。 变量 作为 基 元 ， 可 能 世界 则 对 应 了 为 每 个 变量 赋 一 个 值 的 全 赋值 (total assignment)。 
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。 可 能 世界 作为 基 元 ， 变 量 是 从 可 能 世界 到 变量 域 的 一 个 函数 ; 对 于 给 定 的 可 能 世 
界 ， 函 数 的 返回 值 是 变量 在 可 能 世界 中 的 变量 值 。 

【 例 4-5) 如 果 存 在 两 个 变量 ，A 的 域 是 {0，1，2)}，B 的 域 是 {true，false}， 那么 存 
在 6 个 可 能 世界 ， 这 里 命名 为 rw，…，zs。 对 于 变量 和 可 能 世界 的 可 能 赋值 方式 如 下 
所 示 : 

* wg: A=0 H B=true 

e w: A=0 H B= false 

* we: A=1 H B=true 

* w,: A=1 H B= false 

。 w: A=2 H B=true 

s ws A=2 H B= false < 

【 例 4-6) 在 制定 一 组 游客 的 旅行 计划 时 ， 一 个 交易 Agent 可 能 被 要 求 去 安排 一 组 活 
动 集合 。 对 于 每 个 活动 则 需要 两 个 变量 ; 一 个 是 日 期 的 ; 一 个 是 地 点 的 。 日 期 的 域 是 进行 
活动 的 可 能 时 间 集 合 ; 地 点 的 域 是 活动 发 生 的 可 能 城镇 集合 。 一 个 可 能 世界 则 对 应 了 每 个 
活动 发 生 的 时 间 和 地 点 的 一 种 赋值 。 < 


4.2.1 AR 


在 很 多 领域 ， 并 不 是 变量 的 所 有 可 能 赋值 都 被 允许 。 一 个 硬 约束 (hard constraint) 3 
者 简单 约束 指定 了 变量 的 合法 赋值 组 合 。 

作用 域 (scope) 或 者 方案 (scheme) 是 一 组 变量 的 集合 。 在 作用 域 S$ 上 的 元 组 (tuple) 是 
对 S 中 每 个 变量 的 一 种 赋值 。 在 作用 域 S$ 上 的 一 个 约束 (constraint)c 是 S 上 一 个 元 组 的 集 
合 。 约 东 涉 及 (involve) 在 其 作用 域内 的 每 一 个 变量 。 

如 果 S' 是 变量 集合 ， 且 SESS', t 是 S' 上 的 一 个 元 组 。 如 果 受 限于 变量 S He tec 中 ， 
那么 称 t 满足 (satisfy) 约 束 c。 

约束 可 以 用 关系 数据 库 中 的 术语 来 定义 。 约 束 和 关系 数据 库 的 最 大 区 别 在 于 约束 指定 
了 合法 值 ， 而 数据 库 关 系 是 指定 了 在 某 些 情况 下 什么 为 真 。 相 对 于 在 一 个 表 中 外 延 地 
(extensionally) 表 达 每 个 赋值 ， 约 束 通 常 是 依据 谓词 (二 元 函数 ) 被 内 涵 地 (intensionally) 定 
义 。 具 体 的 定义 既 可 以 用 合法 赋值 表示 ， 也 可 以 用 非法 赋值 表示 。 

【 例 4-7) 考虑 在 可 能 时 间 上 三 个 活动 的 一 个 约束 。A、B、C 是 三 个 变量 代表 该 时 间 
下 的 每 个 活动 。 假 设 每 个 变量 的 域 为 {1，2，3，4}。 

约束 可 以 用 表格 的 形式 被 写 出 ， 并 给 出 如 下 的 合法 组 合 : 





其 中 {A，B，C} 是 作用 域 。 每 一 行 是 一 个 元 组 ， 该 元 组 是 在 作用 域 限制 下 的 每 个 变量 
的 合法 赋值 。 第 一 个 元 组 是 

{A=2,B=2,C=4} 

赋予 A 值 为 2，B 值 为 2，C 值 为 4。 这 个 元 组 指明 了 变量 4 种 合法 赋值 中 的 一 种 。 
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用 上 述 表 格 的 约束 可 以 给 出 这 样 的 元 组 {A=1，B= 二 2，C= 二 3，D=3，E= 二 1} ， 因 为 该 
元 组 对 作用 域 变量 的 赋值 均 为 合法 赋值 。 

这 种 约束 性 的 合法 赋值 也 可 以 用 一 阶 谓词 还 辑 公式 更 内 涵 地 描述 ， 那 么 上述 约束 可 被 
表达 为 如 下 : 

(A<B) A (B<3) A (B<C) A = (A=BAC=3) 

这 里 人 是 逻辑 与 ，” 是 逻辑 非 。 这 个 公式 表达 了 这 样 的 约束 : A 小 于 等 于 B，B 小 于 
3A BAFC, 并 且 不 存在 A 等 于 B HOC 等 于 3 的 情况 。 < 

一 元 约束 (unary constraint) 是 作用 在 单个 变量 上 的 约束 (例如 : XA4). ITAR 
(binary constraint) 是 作用 在 一 对 变量 上 的 约束 (例如 : XAY). HH. 不 元 约束 有 一 个 大 
小 为 & 的 作用 域 。 

对 于 每 个 约束 ， 如 果 可 能 世界 也 中 变量 的 赋值 都 满足 在 约束 条 件 下 作用 域内 变量 的 相 
应 约束 ， 那 么 就 说 可 能 世界 w 满足 约束 集 。 这 种 情况 下 我 们 说 可 能 世界 是 约束 的 一 个 模型 
(model) 。 换 言 之 ， 一 个 模型 就 是 满足 所 有 约束 的 一 个 可 能 世界 。 

KB 4-8) 假设 配送 机 器 人 必须 完成 一 组 配送 活动 a、5、c、d、e。 假 设 每 个 活动 发 生 
的 次 数 可 以 是 1、2、3、4 中 的 任意 次 数 。 变 量 A 表示 活动 a 发 生 的 次 数 ， 类 似 定义 其 余 
活动 的 发 生 次 数 。 代 表 每 个 配送 可 能 发 生 次 数 的 变量 域 如 下 : 

dom(A)={1,2,3,4} ,dom(B)={1,2,3,4} ,dom(C)= {1,253.4} 

dom(D)={1,2,3,4} ,dom(E)={1,2,3,4} 

假设 如 下 约束 是 必须 被 满足 的 : 

{(B¥3) ,(C#2) ,(A¥B),(B¥C) ,(C<D),(A=D) ,(E<A), (E<B),(E<C),(E<D) ,(B#D)} 

这 就 是 寻找 到 一 个 模型 ， 使 得 每 个 变量 的 赋值 都 能 满足 所 有 约束 条 件 。 a 

【 例 4-9) 考虑 例 4-4 中 关于 填 字 游戏 约束 的 两 种 表达 。 

1) 对 于 填 字 游戏 来 说 ， 如 果 它 的 域 是 许多 单词 ， 那 么 约束 就 是 一 对 单词 相交 叉 的 字 
母 必须 相同 。 

2) 如 果 它 的 域 是 英文 字母 ， 那 么 约束 则 是 字母 的 连续 序列 必须 构成 一 个 合法 的 
单词 。 可 

〖【 例 4-10) 例 4-6 中 ， 对 于 那些 典型 的 约束 也 有 很 多 种 描述 方式 。 可 能 某 些 具体 的 活 
动 需要 安排 在 不 同 的 日 期 ， 也 可 能 另外 一 些 活 动 需要 安排 在 同一 城镇 的 同一 天 ; 可 能 是 某 
些 活动 必须 被 安排 在 其 他 活动 之 前 ， 也 可 能 两 个 活动 之 间 必 须 相 隔 一 定 的 天 数 ， 还 有 可 能 
是 三 个 活动 不 能 被 安排 在 连续 的 三 天 。 < 


4.2.2 约束 满足 问题 


一 个 约束 满足 问题 (constraint satisfaction problem，CSP) 由 以 下 三 者 构成 : 

。 一 个 变量 集合 ; 

， 每 个 变量 都 有 一 个 域 ; 

。 一 个 约束 集合 。 
其 目的 是 选择 出 使 可 能 世界 满足 约束 的 每 个 变量 值 ， 因 此 需要 约束 的 模型 。 

一 个 有 限 的 约束 满足 问题 (CSP) 要 求 变 量 集 是 有 限 的 ， 并且 变 量 的 域 是 有 限 的 。 尽 管 
针对 无 限 的 域 甚至 连续 域 的 CSP 设计 了 一 些 方法 ， 但 是 本 章 的 许多 方法 仅 针 对 有 限 CSP 
有 效 。 
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当 每 个 变量 被 看 做 是 一 个 单独 的 维度 ， 这 类 :CSP 问题 就 转化 为 多 维 的 角度 。 多 维 使 


CSP 更 难以 处 理 ， 却 也 提供 了 可 利用 的 结构 。 
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对 于 给 定 的 CSP， 可 以 进行 以 下 的 处 理 : 

。 判断 是 否 存在 一 个 模型 。 

<- 写 找 一 个 模型 。 

© 寻找 全 部 的 模型 或 者 枚 举 模型 。 

。 计算 模型 的 数量 。 

© 对 于 给 定 评估 模型 的 度量 标准 ， 寻 找 一 个 最 优 的 模型 ， 见 4. 10 节 。 

。 判断 一 些 表达 是 否 适用 于 所 有 模型 。 

本 章 主要 研究 找到 一 个 模型 的 问题 。 有 一 些 方法 也 可 以 判断 是 否 无 解 。 比 较 特殊 的 
是 ， 有 一 些 方 法 在 有 解 的 情况 下 可 以 给 出 一 个 模型 ， 但 是 无 解 的 情况 下 却 不 能 告 之 无 模型 
存在 。 

约束 满足 间 题 是 广泛 存在 的 ， 因 此 寻找 有 效 的 方法 解决 这 类 问题 是 具有 现实 意义 的 。 
对 一 个 有 限 域 的 CSP 问题 ， 判 断 它 是 否 存在 一 个 模型 是 NP 难 的 ( 详 见 5. 2. 2 节 中 “不 确定 
性 选择 ?的 内 容 )， 且 在 最 坏 的 情况 下 ,不 存在 一 个 已 知 算法 可 以 在 非 指数 时 间 内 解决 这 类 
问题 。 但 是 ， 不 能 因为 一 个 问题 是 NP 难 的 ， 就 断言 所 有 实例 都 是 难以 解决 的 。 一 些 实例 
提供 了 可 利用 的 结构 。 


4.3 生成 -测试 算法 


任何 有 限 的 CSP 问题 都 可 以 用 穷 举 的 生成 -测试 算法 来 解决 。 赋 值 空间 (assignment 
space) D 表示 所 有 变量 的 赋值 集合 ， 它 对 应 了 所 有 可 能 世界 组 成 的 集合 。 中 的 每 个 元 素 
都 代表 对 所 有 变量 的 一 种 赋值 。 算 法 返回 值 是 符合 所 有 约束 的 赋值 。 

因此 ， 生 成 -测试 (generate-and-test) 算 法 如 下 : 依次 检查 每 个 全 赋值 ， 如 果 一 种 全 赋 
值 满 足 了 所 有 约束 ， 那 么 返回 这 种 赋值 。 

【 例 4-111 fi] 4-8 中 赋值 空间 是 

D={ {A=1,B=1,C=1,D=1,E=1) (A=; B=], Cel D=1 B= 

{A=4,B=4,C=4,D=4,E=4}) } 

本 例 中 需要 测试 | 卫 | = 和 二 1024 个 不 同 的 赋值 。 在 习题 4. 1 的 填 字 游戏 的 例子 中 ， 
有 40°=4 096 000 000 个 可 能 的 赋值 。 < 

如 果 n 个 变量 中 每 个 变量 的 域 大 小 为 4， BAD PA P” 个 元 素 。 如 果 存 在 e 个 约束 ， 
那么 测试 的 约束 实例 总 数 为 Ol(ed")。 当 nn 很 大 时 ， 这 个 问题 就 会 变 得 难以 解决 ， 因 此 我 
们 需要 找到 一 种 有 效 的 求解 方法 。 : 


4.4 使 用 搜索 求解 CSP 


生成 -测试 算法 在 检查 是 否 满足 约束 之 前 需要 为 所 有 变量 赋值 。 因 为 单独 的 约束 仅仅 
包含 一 个 变量 子 集 ， 所 以 在 所 有 变量 都 被 赋值 之 前 ， 已 经 有 一 部 分 约束 能 被 测试 。 如 果 存 
在 部 分 赋值 和 某 约束 不 一 致 ， 那 么 包含 这 部 分 赋值 的 任意 完整 赋值 都 是 与 约束 不 一 致 的 。 

【 例 4-121 在 例 4-8 配送 计划 问题 中 ，A==1 A B=1 的 赋值 方式 与 约束 AAB 是 不 一 
RY. MRE A AB 被 首先 赋值 ， 那 么 这 种 不 一 致 就 会 在 为 C、D、E 赋值 之 前 被 发 
现 ， 这 样 可 以 节省 大 量 的 工作 。 < 

一 个 替代 生成 -测试 算法 的 方式 是 构建 一 个 搜索 空间 ， 之 前 章节 所 提供 的 搜索 策略 在 
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这 个 搜索 空间 内 可 以 被 使 用 。 搜 索 问 题 可 以 如 下 定义 : 

。 将 一 些 变量 子 集 的 赋值 作为 节点 。 

。 EWAN 中 选择 一 个 未 被 赋值 的 变量 w， 在 含有 Y 的 每 个 赋值 中 选取 不 违反 任何 

约束 的 赋值 作为 N 的 邻居 节点 。 

假设 节点 N 表示 赋值 Xiu, …'， X5 u 为 了 找到 NN 的 邻居 ， 选 择 变 量 Y， 该 变 
量 不 在 集合 {Xa ， Sy Aa}, 对 于 每 一 个 值 yi E dom(Y); 如 果 Xi =v; s., 一 
Y= yA RARR WA X=, > XHu, Y=y AN 的 邻居 节点 。 

。 开始 节点 为 空 节点 ， 表 示 没 有 任何 变量 被 赋值 。 

。 一 个 目标 节点 则 是 对 每 个 变量 都 进行 赋值 的 节点 。 这 种 节点 只 有 在 赋值 满足 所 有 

约束 的 条 件 下 才 存 在 。 

这 种 情况 下 ， 和 寻找 的 不 是 兴趣 路 径 ， 而 是 目标 节点 。 

【 例 4-13】 假设 存在 一 个 含有 A、B、C 三 个 变量 的 CSP 问题 ， 且 每 个 变量 的 域 为 
(1，2，3，4)}。 假 设 约束 为 A< 了 3 且 下 二 C。 那 么 图 4-1 可 能 是 一 个 满足 这 种 约束 的 搜索 
树 。 图 中 一 个 节点 对 应 了 从 根 节 点 到 该 节点 的 所 有 赋值 。 不 符合 约束 的 潜在 节点 将 被 剪 枝 
掉 ， 用 X 来 标记 。 

最 左边 的 X 代 表 赋 值 A=1, B=1, ARFA A<B 的 约束 ， 因 此 被 删除 掉 。 

这 个 CSP 问题 有 4 个 解 。 最 左边 的 解 是 A 二 1，B 二 2，C 二 3。 搜 索 树 的 大 小 和 算法 的 
效率 取决 于 每 次 选取 的 变量 。 如 果 使 用 先 A 再 B 最 后 C 的 静态 分 割 顺 序 ， 那 么 效果 将 没 
有 本 例 中 使 用 的 动态 顺序 好 。 尽 管 变量 顺序 不 同 ， 但 结果 是 相同 的 。 

在 本 例 中 ， 使 用 生成 -测试 算法 需要 测试 4 64 个 赋值 方式 。 但 用 搜索 的 方法 ， 只 生 
成 22 个 赋值 方式 。 119 





4=1 4=2 
x 
ix B=3 
A=1 A= N C=1 C=2 oy 
TRR T woman] Ng 
C=1 C=2 C3 C4 4=1 A=2 A=3 A4=4 
x X vv Y 7 着 SS 
图 41 例 4-13 H CSP 的 搜索 树 < 


使 用 深度 优先 的 搜索 方法 ， 通 常 称 为 回溯 (backtracking)。 该 方法 比 生成 -测试 算法 更 
为 有 效 。 生 成 -测试 算法 相当 于 在 到 达 叶 子 节点 之 前 都 不 检查 是 否 满足 约束 条 件 。 早 检查 
约束 条 件 就 可 以 修剪 子 树 ， 进 而 减少 了 不 必要 的 搜索 。 
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4.5 一 致 性 算法 


尽管 深度 优先 搜索 算法 在 赋值 的 搜索 空间 内 比 生 成 -测试 算法 有 了 实质 性 的 提高 ， 但 
是 该 方法 仍 有 多 个 缺陷 可 以 被 改进 。 

【 例 4-14] 例 4-13 中 ,变量 A 和 B 通过 约束 A 二 B 被 联系 起 来 。 因 为 dom(B)=({1, 
2，3，4}， 所 以 A=4 与 每 一 个 可 能 的 赋值 组 合 后 都 不 满足 约束 。 而 在 图 41 MEP, B 
与 C 的 赋值 过 程 中 ， 这 个 事实 就 被 忽略 。 假 如 使 用 一 个 简单 的 手段 将 4 这 个 值 从 dom CA) 
中 删除 ， 那 么 这 种 失效 性 就 可 以 一 劳 永 锡 地 避免 。 < 

对 于 由 约束 满足 问题 形成 的 整个 约束 网 络 的 操作 来 说 ， 众 多 方法 中 一 致 性 算法 的 思想 
是 最 好 的 : 

。 每 个 变量 为 一 个 节点 ， 变 量 节 点 用 圆 形 画 出 。 

。 每 个 约束 为 一 个 节点 ， 约 束 节点 用 长 方形 画 出 。 

。 对 于 每 个 变量 X， 与 其 相关 的 Dx 是 变量 可 能 取 值 的 一 个 集合 。 这 个 集合 的 初始 

值 为 变量 的 域 。 

。 对 于 每 个 约束 c c 与 它 作用 域内 的 每 一 个 变量 X RAINER, c). 

这 样 一 个 网 络 就 称 之 为 一 个 约束 网 络 (constraint network) 。 

【 例 4-15〗 例 4-13}, AA, B, CSERE, HBTRRHMALI, 2, 3. 4). A 
RAAKBAB<C, 在 图 4-2 的 约束 网 络 中 ， 有 4 个 弧 : 


(A,A<B) 
(B,A<B) 
(B,B<C) 
(C,B<C) 
(4) Ca) Ce) 

4-2 fil 4-15 中 CSP 的 约束 网 络 过 
KB 4-16) 约束 XAA 1 个 弧 : 
(X, X44) 
约束 X+Y=Z 有 3 个 弧 : 
(X,X+Y= 2 
(Y,X+Y=Z) 
(Z,X+Y=Z) 号 


最 简单 的 情况 是 ， 约 束 的 作用 域内 仅 有 一 个 变量 。 这 种 情况 下 ， 如 果 单 变量 的 每 个 变 
量 值 都 满足 约束 ， 那 么 这 个 弧 就 是 域 一 致 (domain consistent) 的。 

【 例 4-17) 约束 BA3 的 作用 域 是 {B}。 在 该 约束 下 ， 且 Ds=({1, 2, 3, 4), AW 
B= 二 3 不 符合 约束 ， 因 此 弧 (B，B 关 3) 不 是 域 一 致 的 。 假 如 3 从 B 的 域 中 删除 ， 那 么 弧 将 是 


域 一 致 的 。 a 
假设 约束 c 的 作用 域 是 {X， Yas y Yay 如 果 对 于 每 个 值 xE Dy, 有 Wy eT Vka 
其 中 yE Dy ， 使 得 c(X 二 zx， Y= y, s Sy DAWE. BAMCX, 0 ÆW A Carce 


consistent) 的 。 


【 例 4-181 例 4-15 的 网 络 中 ， 没 有 弧 是 弧 一 致 的 。 因 为 A 二 4 时 B 中 没有 与 之 对 应 且 
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满足 A<B 的 值 ， 所 以 第 一 个 弧 不 是 弧 一 致 的 。 如 果 把 4 从 A 的 域内 删除 ， 那 么 该 弧 为 弧 
一 致 的 。 第 二 个 弧 同 样 不 是 弧 一 致 的 ， 因 为 在 B= 时 ，A 中 没有 与 之 对 应 的 值 。 < 

MRI X, DRARIM—M, WBA XX 中 则 存在 一 些 值 ， 这 些 值 不 能 保证 辣 ，…，Y' 与 
之 对 应 使 得 约束 成 立 。 这 种 情况 下 ， 为 了 保证 弧 (X，c) 是 一 致 的 ， 则 需要 判断 变量 的 Dx 
中 有 哪些 值 是 与 其 他 变量 值 无 法 对 应 的 ， 将 这 些 值 从 Dx 中 全 部 删除 。 

图 4-3 中 给 出 了 广义 弧 一 致 性 (generalized arc consistency，GAC) 算 法 。 通 过 对 TDA 
( 弧 集 ) 集 合 中 潜在 的 非 一 致 弧 和 待 处 理 的 弧 进 行 操 作 ， 构 建 整个 网 络 的 弧 一 致 。TDA 初 
始 时 包含 了 图 中 所 有 的 弧 。 当 弧 集 不 为 空 时 ， 从 集合 内 选择 删除 的 弧 (X，c) 需 要 被 进一步 
分 析 。 如 果 弧 是 非 一 致 的 ， 那 么 修剪 变量 X 的 域 使 之 变 为 一 致 。 作 为 变量 X 修剪 结果 ， 
之 前 所 有 一 致 的 弧 都 可 能 变 成 非 一 致 的 ， 因 此 需要 选择 一 些 弧 将 其 放 回 TDA. EIZ, 
c)，c 是 关于 变量 X WAR Fc 的 约束 ， 且 Z BH c 相关 但 是 不 同 于 X 的 变量 。 





procedure GAC(V, dom, C) 
Inputs 
Vi 变量 集合 
dom; RM, PAR dom X) HA X 的 域 
C: 被 满足 的 约束 集合 
Output 
每 个 变量 的 弧 一 致 域 


[> Dt & Ww He 
= 0 6 of lke 





Local 

9; Dy 是 每 个 变量 X 的 值 的 集合 

10: TDA BMRA 

ll: for each 变量 X do 

12; Dy~dom(X) 

13: TDA=-{(X, c) |cEC H X E scopetc)} 

14; while TDA {}do 

15; select: X, c) € TDA; 

16; TDA+TDA \ {{X, c)} 

17; NDx={x|2€ Dy 并 目 一 些 {X=z, N=, > Yi=nheos 
对 于 所 有 i 9 € Dy } 

18: if NDx# Dx then 

19: TDA=TDAU{(Z, c') |XEscopele'), c' 不 是 ce，ZE svopele’)} \ {X}} 

20: Dxy~-NDx 

21; return {Dy lox: 是 一 个 变量 } 








4-3 广义 弧 一 致 算法 


【 例 4-19] 用 GAC 算法 操作 例 4-15 的 网 络 。 初 始 ， 所 有 的 弧 都 在 TDA 集合 中 。 下 
面 是 一 个 选择 弧 的 可 能 顺序 : 
。 假设 算法 首先 选择 了 弧 ‘A，A 二 B;。 对 于 A 二 4，B 没有 与 之 对 应 可 以 满足 约束 
A 二 B 的 值 。 因 此 ，4 从 A 的 域 中 被 删除 。 因 为 在 TDA 外 没有 其 他 的 弧 ， 所 以 本 
次 移动 操作 没有 弧 被 添加 到 TDA HIA, A<B) M TDA 中 删除 一 一 译 者 
注 5。 





。 假设 接 下 来 ‘(B，A 二 B) 被 选中 ， 那么 1 将 被 从 B 的 域内 删除 ， 仍 然 没 有 元 素 被 添 


加 到 TDA 中 (和 目 弧 4B，A 三 B) 从 TDA 中 期 除 ) 。 

假设 (B，B 二 C) 又 被 选中 ， 那 么 4 将 被 从 B 的 域内 删除 。 因 为 B 的 域 因 男 一 个 约 
束 被 缩减 ， 因 此 A 也 存在 被 约 简 的 潜在 可 能 ,所 以 必须 将 弧 ‘A，A 二 B) 重 新 添加 
到 TDA 中 。 
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。 WRA, AXB) MAAK PHM, 那么 3 将 从 A 的 域内 删除 ( 且 弧 tA，A 二 B》 
从 TDA 中 删除 )。 
。 在 TDA 中 还 有 弧 《C，B 二 C》。 那 么 值 1 和 2 将 从 C 的 域内 被 删除 。 没 有 弧 被 添加 
al TDA H, H TDA 为 空 。 
算法 终止 ， 并 生成 Di 二 {11，2}，Dg 二 {2，3)，Dec 二 13，4)}。 虽 然 该 方法 没有 完全 解 
决 问题 ， 但 是 却 将 问题 大 大 简化 了 。 4 
【 例 4-20] 用 GAC 算法 来 解决 例 4-8 的 调度 问题 。 图 4-4 的 网 络 图 已 经 构造 了 域 一 致 
(将 值 3 从 B 的 域内 删除 值 2 从 C 的 域内 删除 )。 
假设 算法 首先 选择 了 弧 ‘DD，C 二 D)。 因 为 D=1 和 Dc 中 的 任何 值 都 不 一 致 ， 这 个 弧 
BLA SEM — # 1M Dp 中 删除 ( 弧 《D， C<D)\\ TDA 中 删除 ) 。 Dp={2, 3, 4); H 
XF D WIKA, A=D), (B, BAD), (E, EXD) RRMA TDA 中 ， 其 实 这 些 弧 已 经 
在 TDA 中 了 。 
假设 接 下 来 选中 (C， 开 < 一 C)， 那 么 Dc HARA, 4}, ACD, COD) RBH RMF 
TDA 中 。 
假设 选中 4D，C 二 D，， 那 么 Dp 被 进一步 约 简 为 单一 的 {4)}。 人 处 理 弧 <C，C=D) 后 De 
{3}. AMIA, A=D) F Da A44). HIB, BÆD) A Da 为 {1，2}。 处 理 弧 (B， 
E<B) Ds 为 {2}。 最 后 ， 处 理 弧 《 玉 ，E 二 B) 后 Ds 为 1。 队 列 中 剩余 所 有 的 弧 都 是 一 致 
的 ， 因 此 算法 结束 且 TDA 为 空 。 约 简 后 的 变量 域 被 返回 。 在 本 例 中 ， 所 有 返回 的 域 大 小 
都 为 1 且 是 唯一 的 解 : A=4, B=2, C=3, D=4, E=1, 





图 4-4 ” 域 一 致 约束 网 络 。 变量 及 其 域 用 圆 图 表示， 约束 用 长 方形 表示 ， 
将 变量 和 其 相关 的 约束 用 弧 线 连接 可 


GAC 算法 不 受 选 择 弧 的 顺序 影响 ， 终 正 时 产生 的 结果 是 相同 的 ,换言之 , 产生 了 相 
同 的 弧 一 致 和 相同 的 约 简 域 。 基 于 网 络 的 终止 状态 ， 以 下 三 种 情况 有 可 能 发 生 : 
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。 第 一 种 情况 ， 某 一 变量 的 域 为 空 ， 这 表明 该 CSP 问题 无 解 。 注 意 ， 只 要 某 一 域 变 
AZ, 那么 在 算法 终止 之 前 就 可 以 把 与 这 个 变量 节点 相连 接 的 节点 的 域 都 置 为 空 。 

。 第 二 种 情况 ， 每 个 域 都 有 一 个 单独 的 值 ， 这 表明 该 CSP 问题 有 且 仅 有 一 个 解 ， 比 
如 例 4-20。 

。 第 三 种 情况 ， 每 个 域 都 不 为 空 ， 并 且 至 少 有 一 个 域内 含有 多 沾 值 。 这 种 情况 下 ， 


则 不 知道 是 否 存 在 一 个 解 和 解 是 什么 。 因 此 需要 其 他 的 方法 来 解决 这 个 问题 ， 这 


类 方法 在 后 续 章 节 中 介绍 。 

下 例 将 说 明 一 个 网 络 即 使 无 解 ， 也 有 可 能 存在 弧 一 致 现象 。 

【 例 4-21) 假设 存在 三 个 变量 , 分 别 是 A、B 和 C， 每 个 变量 的 域 为 {1，2，3}。 存 
在 这 样 的 约束 A 二 B，B 一 C 且 A 关 C。 这 种 情况 下 ,使 用 任何 单一 约束 都 不 能 将 域 约 简 ， 
因此 该 例 为 弧 一 致 。 尽 管 存在 弧 一 致 ， 但 是 却 没 有 解 。 对 于 三 个 变量 任何 一 种 赋值 方式 都 
不 能 满足 上 述 约束 。 4 

如 果 每 个 变量 域 的 大 小 是 4d 且 有 个 约束 需要 被 测试 ， 那么 GAC 算法 将 在 Oled) H 
时 间 内 进行 一 致 性 检查 。 对 于 一 些 CSP 问题 ,例如 约束 图 形 是 一 个 树 形 结构 ， 该 方法 可 
以 基于 变量 数目 以 线性 时 间 独 自 解决 CSP 问题 。 

弧 一 致 的 各 种 扩展 技术 也 被 研究 。 当 域 不 是 有 限 域 时 ， 这 些 非 有 限 的 域 可 以 用 图 形 来 
描述 ， 而 不 是 将 它们 的 值 罗 列 出 来 。 当 约束 被 扩展 地 表达 时 ， 对 约束 的 修剪 也 是 可 操作 
的 : 如 果 一 个 值 因 变量 X 被 删除 ， 那 么 所 有 涉及 变量 X 的 约束 中 这 个 值 都 可 以 被 删除 。 
高 阶 一 致 性 技术 ， 例如 路 径 一 致 (path consistency)， 可 以 同时 分 析 多 个 变量 的 K 元 组 ， 
而 不 仅仅 是 被 一 个 约束 连接 的 成 对 变量 。 例 如 在 例 4-21 中 ， 同 时 考虑 三 个 变量 ， 那 么 可 
以 分 析出 此 问题 无 解 。 后 续 介 绍 的 增强 型 的 弧 一 致 方法 在 处 理 某 些 问 题 方面 往往 比 高 阶 方 
法 更 有 效 。 


4.6 域 分 割 


另 一 个 简化 网 络 的 方法 是 瑾 分 割 (domain splitting) 或 者 实例 分 析 (case analysis) 。 该 
方法 的 主要 思路 是 将 一 个 问题 分 割 成 许多 不 相交 的 实例 ， 然 后 分 别 解 决 每 个 实例 。 那 么 原 
始 问 题 的 所 有 解 的 集合 就 是 每 个 实例 的 解 的 并 集 。 

最 简单 的 情况 ， 假设 一 个 二 元 变量 X 的 域 是 {:，f}。 所 有 的 解 要 么 是 X 一 :上 要么 是 
X=f, MA—TREMHHKE, 首先 设置 X= RIME t 值 下 的 解 ， 然 后 设置 X= 了 
找到 所 有 上 二 值 下 的 解 。 将 一 个 变量 赋值 后 给 出 一 个 更 小 的 约 简 问题 ， 进 而 解决 这 个 简化 后 
问题 。 

如 果 一 个 变量 的 域 有 超过 两 个 元 素 ， 例 如 变量 A 的 域 是 {1，2，3，4}， 那 么 有 以 下 的 
方法 去 分 割 : 

。 将 域 的 每 个 值 分 割 为 一 个 实例 。 例 如 ， 将 A 分 割 为 4 个 实例 A=1, A=2, A=3 

HA ASA, 
。 经 常 将 域 分 割 为 两 个 不 相交 的 子 集 。 例 如 ， 将 A 分割 为 两 个 实例 ， 一 个 实例 是 
A€{1, 2}, A—-TRABAE(3, 4). 

第 一 种 单个 分 割 的 方式 会 产生 更 多 的 处 理 过 程 ， 而 第 二 种 方式 则 人 允许 以 较 少 的 步 又 进 
行 更 多 的 人 修剪。 例如， 不 管 A 的 值 是 1 还 是 2， 对 于 变量 B 都 有 相同 的 值 可 以 被 修剪 ， 那 
么 第 二 种 分 割 方式 只 需 对 这 种 情况 分 析 一 次 ， 并 且 不 会 对 A 中 的 每 个 元 素 再 重新 检查 。 节 
省 操作 的 程度 取决 于 怎样 划分 对 域 。 


[125 | 


126 


82 ”第 三 部 分 KAPE 


用 域 分 割 方法 循环 地 解决 实例 、 识 别 何 时 无 解 等 价 于 4.4 节 中 的 搜索 算法 。 在 搜索 时 
交叉 使 用 弧 一 致 算法 会 使 搜索 变 得 更 加 有 效 。 

一 个 有 效 解决 CSP 问题 的 方法 是 在 域 分 割 操作 之 前 使 用 弧 一 致 算法 对 网 络 进行 简化 。 
也 就 是 说 ， 进 行 如 下 步骤 来 解决 问题 : 

。 用 弧 一 致 方法 来 简化 网 络 ; 

© 如 果 问 题 没 有 被 解决 ， 选 择 一 个 含 多 个 元 素 的 域 进 行 分 割 ， 且 循环 解决 每 个 实例 。 

该 方法 需要 注意 的 是 ， 在 域 分 割 之 后 不 需要 再 从 头 开始 弧 一 致 操作 。 如 果 将 变量 X 
进行 域 分 割 ， 作 为 分 割 结果 有 些 弧 可 能 不 再 满足 弧 一 致 ，TDA AWA Fah. Bk 
KEMAH HY, r), SEAR X 出 现在 7 约束 中 , YER X 外 出 现在 r 约束 中 的 变量 。 

【 例 4-22〗 例 4-19 中 ， 弧 一 致 的 方法 虽然 简化 了 网 络 , 但 是 却 没有 解决 该 问题 。 在 
弧 一 致 操作 后 ， 变 量 域内 仍然 含有 多 个 元 素 。 假 设 变量 B 被 分 割 。 有 两 个 实例 : 

* B 二 2。 这 种 实例 下 A 三 2 被 删除 。 然 后 对 C 进行 分 割 ， 得 到 两 个 解 。 

。 B= 二 3。 这 种 实例 下 C—3 被 删除 。 然 后 对 A 进行 分 割 ， 得 到 两 个 解 。 

该 方法 的 搜索 树 与 图 4-1 的 搜索 树 进行 对 比 ， 弧 一 致 的 搜索 空间 更 小 ， 且 对 变量 选择 
顺序 不 敏感 。( 图 4-1 中 如 果 选 用 其 他 的 变量 选择 顺序 ， 搜索 空间 会 更 大 。) < 

男 一 种 增强 域 分 割 效果 的 手段 如 下 : 如 果 对 变量 的 赋值 拆 分 了 图 ， 每 个 被 拆 分 的 子 部 
分 可 以 被 单独 解决 。 那 么 该 问题 的 完全 解 将 是 每 个 子 部 分 的 解 的 交叉 乘积 。 这 种 方法 可 以 
减少 很 多 计算 ， 比 如 查询 解 的 个 数 的 计算 或 者 寻找 所 有 解 的 计算 。 例 如 ， 一 个 子 部 存在 
100 个 解 ， 另 一 部 存在 20 个 解 ， 那 么 问题 将 有 2000 个 解 。 这 比 单独 去 寻找 2000 个 解 中 的 
每 一 个 解 更 有 效 。 


利用 命题 结构 


- 人 工 智 能 中 一 个 基本 的 思想 就 是 利用 域 中 的 结构 。 利 用 变量 和 约束 的 限制 类 可 对 CSP 
问题 提供 一 种 结构 形式 。 这 样 的 类 别 可 以 称 之 为 命题 可 满足 性 (propositional satisfiability) 
问题 的 类 别 。 这 类 问题 具有 以 下 性 质 ; 

© 二 元 变量 ; 一 个 二 元 变量 就 是 变量 的 域 有 {true，false} 两 个 值 。 给 定 一 个 二 元 变 
ft Happy, WAME happy 表明 Happy= 二 true， 且 happy 表 明 Happy= false. 
。 子 句 约束 : -AFA (claus ERA L Vl VeV ha 的 一 种 表达 ， 这 里 每 个 2 是 一 
个 文字 。 一 个 文字 (literal) 为 二 元 变量 的 一 个 赋值 。 当 可 能 世界 中 的 一 个 子 句 被 满 
足 ， 或 者 说 为 真 时 ， 当 且 仅 当 组 成 子 句 的 文字 中 至 少 有 一 个 为 真 。 
例如 ， 子 句 happyV sad V living TEER Happy, Sad Fil Living 间 的 一 个 约束 。 当 
Happy 的 值 为 真 ， 或 者 Sad WEKA, 或 者 Living 的 值 为 假 时 ， 子 句 的 值 就 为 真 。 
一 个 子 句 是 在 一 组 二 元 变量 上 的 约束 ， 这 组 变量 需要 考虑 消除 一 种 赋值 情况 ， 就 是 使 
得 全 体 文字 为 假 的 赋值 。 因 此 ， 子 句 happy V sad V Uiving 指 明 赋 值 happy、sad， living 
是 不 被 允许 的 。 
当 只 有 两 个 值 的 时 候 ， 从 域 中 删除 一 个 值 等 价 于 为 变量 赋 了 一 个 相反 的 值 。 例 如 ， 如 
R X 的 域 是 {true，Jalse}， 那 么 从 域 中 删除 zrue， 等 同 于 将 变量 X 赋值 为 false, 
弧 一 致 方法 可 以 被 用 来 修剪 变量 集合 和 约束 集合 。 对 一 个 一 元 变量 赋值 可 以 简化 约束 集合 : 
© 如 果 变 量 X 赋值 为 true， 所 有 包含 X=true 的 子 句 都 变 为 元 余 ， 它 们 自动 地 被 满 
足 。 那 么 这 些 子 句 就 可 以 被 删除 。 相 似 地 ， 当 开 赋值 为 false HHA AE X= 
false 的 子 句 都 可 以 被 删除 。 
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° 如 果 变 量 X 赋值 为 true， 所 有 包含 X= false HF AAA WHE X = false 从 子 句 中 
删除 。 相 似 地 ， 当 X 赋值 为 false 时 ， 所 有 包含 X=true 的 子 句 都 可 以 将 六 二 true 
从 子 句 中 删除 。 该 步骤 可 以 叫做 单元 归结 (unit resolution), 
在 一 些 修剪 子 句 的 步骤 之 后 ， 子 句 可 能 存在 仅 包 含 一 种 赋值 的 情况 ， 例 如 Y= u. 这 
种 情况 下 ， 变 量 Y 域 内 的 其 他 的 值 就 都 可 以 被 删除 。 对 于 赋值 YY 一， 上 述 修剪 操作 可 以 
被 重复 进行 。 如 果 所 有 的 赋值 都 被 从 子 句 中 删除 ， 那 么 说 明 不 满足 约束 。 
[i 4-23] SRBFMEVyVz. 4X 被 赋值 为 true 时 ， 子 句 可 以 被 简化 为 yVx。 如 
果 接 下 来 了 被 赋值 为 false， 子 名 可 以 被 简化 为 z。 因 此 ，true 可 以 从 2 的 域内 被 删除 。 
相反 地 ， 如 果 和 被 赋值 为 false ， 上 述 子 句 就 可 以 被 删除 。 < 
如 果 一 个 变量 在 所 有 剩余 的 子 句 中 都 用 相同 的 值 ， 且 算法 只 需要 发 现 一 个 模型 ， 那 么 
该 变量 可 以 被 赋 为 这 个 相同 的 值 。 例 如 ， 如 果 变 量 Y 了 仅 以 了 =true 的 形式 出 现 ( 如 ， 3 不 
是 任何 子 句 )， 那 么 变量 Y 可 以 被 赋值 为 true。 因 为 在 设置 了 二 true 后， 剩余 的 子 句 集合 
将 是 了 被 赋予 false 的 子 句 集合 的 子 集 ， 因 此 这 种 赋值 并 不 是 删除 所 有 的 模型 ， 而 是 将 问 
题 简化 。 在 所 有 子 名 中 仅 含 有 一 个 值 的 变量 被 称 之 为 纯 符 号 (pure symbol). 
事实 证 明 将 修剪 域 和 约束 、 域 分 割 、 纯 符号 赋值 和 有 效 地 管理 约束 ( 即 ， 判 断 何 时 除 
一 个 析 取 外 其 余 所 有 的 析 取 为 假 ) 应 用 到 命题 可 满足 问题 是 非常 有 效 的 手段 。 该 算法 以 作 
者 名 字 命 名 ， 简 称 为 DPLL。 


4.7 变量 消除 


弧 一 致 方法 通过 删除 变量 值 简化 了 网 络 。 一 个 更 完整 的 思想 是 变量 消除 (Variable 
Elimination，VE)， 该 方法 则 通过 删除 变量 来 简化 网 络 。 

VE 的 思想 是 逐个 地 删除 变量 。 当 删除 一 个 变量 XX 时，VE 将 在 剩余 的 一 些 变量 中 构 
建新 的 约束 ， 新 约束 反映 了 大 在 所 有 其 他 变量 上 的 影响 。 新 约束 替换 了 所 有 涉及 变量 X 
的 约束 并 且 形 成 了 一 个 不 含 X 的 约 简 网 络 。 由 于 构建 了 新 约束 ， 因 此 约 简 后 的 CSP 的 任 
何 解 都 可 被 扩展 为 原 有 包含 变量 X 的 较 大 CSP 的 某 一 个 解 。 所 以 除了 创造 新 约束 外 ，VE 
提供 一 种 构造 解 的 方法 ， 该 方法 从 约 简 的 CSP 中 选择 一 个 解 来 构建 包含 变量 X 的 CSP [al 
题 的 解 。 

下 述 算法 的 描述 将 使 用 关系 代数 计算 中 的 连接 和 投影 操作 。 

消除 变量 X 时 ，X 的 影响 力 通过 包含 X 的 约束 作用 到 其 余 变 量 。 首 先 ， 算 法 收集 所 
有 涉及 X 的 约束 。 让 所 有 的 这 些 关系 进行 连接 操作 形成 关系 rx (XX，Y)， 这 里 了 是 作用 域 
rx 内 的 其 他 变量 。 然 后 把 rx 投影 到 立 ， 这 个 关系 可 以 代替 所 有 包含 X 的 关系 。 那 么 这 样 
就 得 到 了 一 个 包含 更 少 变量 的 约 简 CSP 问题 ， 且 约 简 后 的 CSP 问题 可 以 以 此 方法 递归 解 
决 。 一 旦 对 于 约 简 后 的 CSP 问题 生成 了 一 个 解 ， 那 么 通过 将 解 与 rx 进行 连接 操作 ， 就 可 
以 扩展 这 个 解 得 到 原始 CSP 问题 的 一 个 解 。 

仅 剩 下 一 个 变量 时 ， 算 法 返回 变量 的 域 元 素 ， 因 为 这 些 元 素 同 该 变量 的 约束 是 一 
致 的 。 

(Gl 4-24] 考虑 包含 变量 A、B、C 的 CSP 问题 ， 这 里 每 个 变量 的 域 为 {1，2，3， 
4}。 假 设 包含 B 的 约束 是 入 二 B 和 了 二 C。 可 能 存在 其 他 的 变量 ;但 是 这 些 其 他 变量 与 召 
不 存在 公共 的 约束 ， 即 使 消除 B 也 不 能 对 这 些 变 量 添加 任何 新 的 约束 。 为 了 删除 B， 首 先 
把 包含 B 的 关系 进行 连接 操作 : 
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这 个 A 和 C 的 关系 包含 了 所 有 有 关 吾 的 约束 的 信息 。 这 个 关系 影响 了 剩余 网 络 
的 解 。 

关于 B 的 初始 约束 被 A 和 C 的 新 约束 取代 。 因 为 不 含 变量 妃 ， 所 以 解 剩 下 的 网 络 就 
会 更 简单 。 间 记得 到 约 简 网 络 的 一 个 解 后 ， 然 后 通过 连接 关系 构造 一 个 包含 变量 B 
的 解 。 < 

图 4-5 给 出 了 消除 变量 的 递归 算法 VE_CSP， 该 算法 可 以 找到 一 个 CSP 问题 的 所 有 解 。 

递归 的 终止 条 件 是 仅 有 一 个 变量 剩余 的 时 





候 。 这 种 情况 下 (第 8 行 )， 当 且 仅 当 在 最 后 的 连 “| ea con © 
接 关 系 中 有 “ 行 " 存 在 时 才 有 人 解 存在 。 注 意 这 些 关 ， Vs BER 
系 是 所 有 关系 在 一 个 单独 变量 上 的 体现 ， 因 此 这 岂 2 
些 关系 是 这 个 变量 合法 值 的 集合 。 这 些 关系 的 连 pea eg Mier a 
接 就 是 这 些 集合 的 交集 。 if V 仅 包含 一 个 元 素 then 

在 非 终止 条 件 下 ， 变 量 X 被 选择 并 消除 (第 | 。 “中 所 有 关系 的 连接 
10 行 )。 变 量 的 选择 不 影响 算法 的 正确 性 ， 但 却 : select 变量 X， 并 删除 
影响 算法 的 效率 。 为 了 消除 变量 X, EHX |N. VVO AEX 
的 影响 传递 到 那些 和 X 直接 相关 的 变量 上 。 这。 | 1s” REC 中 所 有 约束 的 连接 
部 分 是 将 所 有 包含 X 的 关系 进行 连接 操作 (第 13 let R' ÈR 投影 到 非 X 变量 的 结果 
行 )， 然 后 将 X 投影 出 结果 关系 (第 14 行 )。 这 样 |1 SEC (C\ CO UIRD 
就 构造 出 一 个 简化 的 问题 ( 少 了 一 个 变量 )， 且 这 一 
个 问题 可 以 被 递归 解决 。 为 了 得 到 X 的 可 能 取 © 图 45 CSP 问题 的 变量 消除 法 


值 ， 算 法 将 具有 关系 RGKKARE MT X 的 影响 ) 的 简化 问题 的 解 进行 连接 。 

如 果 仅 仅 想 得 到 一 个 解 ， 那么 算法 将 返回 连接 操作 后 的 一 个 元 素 ， 而 不 是 返回 Rm 
S. 不论 算 法 返回 了 哪个 元 素 ， 这 个 元 素 都 被 确保 是 解 的 一 部 分 。 如 果 算 法 中 R 的 任何 值 
都 不 包含 元 组 ， 那 么 说 明 无 解 。 

VE 算法 的 有 效 性 取决 于 变量 选择 的 顺序 。 中 间 结 构 ( 在 变量 的 中 间 关 系 上 体现 ) 不 取 
决 于 关系 的 实际 内 容 ， 但 是 取决 于 整个 网 络 的 图 形 结构 。 算 法 的 有 效 性 可 以 通过 考虑 图 形 
化 结构 来 决定 。 通 常 ，VE 算法 在 约束 网 络 稀 朴 的 情况 下 是 有 效 的 。 对 于 一 个 特定 的 变量 
顺序 ， 返 回 最 大 关系 下 的 变量 数 可 以 称 之 为 这 个 变量 顺序 下 图 形 的 树 宽 (treewidth)。 一 个 
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图 形 的 树 宽 则 是 任意 顺序 下 最 小 树 宽 。VE 的 时 间 复 杂 度 在 树 宽 上 是 指数 的 ， 在 变量 数 上 
是 线性 的 。 本 章 4.4 节 中 的 搜索 方法 在 变量 数 上 就 是 指数 的 。 
选择 一 个 消除 顺序 从 而 产生 最 小 树 宽 是 一 个 NP 难 问题 。 尽 管 如 此 ， 还 是 存在 一 些 好 
的 启发 式 条 件 ， 最 常见 的 两 个 是 : 
。 最 小 因 式 (min-factor);: 在 每 个 阶段 ， 选 择 能 产生 最 小 关系 的 变量 。 
。 最 小 缺损 (minimum deficiency) 或 最 小 填充 Cminimum fill): 在 每 个 阶段 ， 选 择 能 
使 剩 余 的 约束 网 络 添 加 最 小 数量 弧 的 变量 。 和 X 在 一 个 关系 中 ， 且 不 和 其 他 变量 
在 一 个 关系 中 的 变量 的 数 称 为 变量 X 的 缺失 。 这 可 以 理解 为 如 下 含义 : 对 于 能 产 
生 大 关系 的 变量 ， 只 要 确保 不 使 网 络 更 复杂 ,那么 是 可 以 删除 它 的 。 
对 比 最 小 因 式 条 件 ， 最 水 缺损 常常 能 被 经 验 性 地 找到 ， 从 而 给 出 一 个 更 小 的 树 帘 ， 但 
是 更 难 计算 。 
VE 方法 也 可 以 和 弧 一 致 方法 组 合 使 用 , 每 当 VE 删除 一 个 变量 时 ， 弧 一 致 方法 都 可 
以 进一步 简化 网 络 。 这 种 方式 可 以 产生 较 小 的 中 间 表 格 。 


4.8 局 部 搜索 


之 前 各 节 研 究 的 算法 都 是 系统 地 搜索 了 整个 空间 。 如 果 空 间 是 有 限 的 ,那么 算法 或 者 
找到 一 个 解 ， 或 者 告知 无 解 。 但 是 一 些 搜索 空间 对 于 系统 搜索 来 说 过 于 庞大 ， 甚 至 有 可 能 
是 一 个 无 限 的 空间 。 而 在 合理 的 时 间 内 ， 系 统 搜索 不 能 遍历 整个 空间 并 给 出 一 个 有 意义 的 
结果 。 接 下 来 本 节 阐 述 的 方法 将 试图 在 这 些 非常 庞大 的 空间 内 运行 。 这 些 方法 不 是 系统 地 
搜索 整个 搜索 空间 ， 它 们 被 设计 成 在 一 个 平均 范围 内 快速 地 寻找 解 。 这 类 方法 不 能 肯定 保 
证 解 被 找到 ， 或 者 肯定 存在 一 个 解 ， 甚 至 不 能 证 明 问 题 无 解 。 对 于 那些 已 经 知道 有 解 或 者 
可 能 有 解 的 应 用 往往 选择 这 类 方法 。 





局 部 搜索 方法 开始 时 先 完整 地 赋 
值 ， 即 对 每 一 个 变量 赋 一 个 的 值 ， 进 1: procedure Local-Search(V, dom, C) 
Inputs 
而 试图 迭代 地 提升 这 套 赋 值 质量 ， 提 ee on 
升 的 手段 包括 阶梯 性 提升 、 随 机 性 选 | 4: dom: Bt. AR om 3) NAER X HM 
取 或 者 重新 选择 一 套 赋值 。 当 前 提出 “| oua 
了 多 种 局 部 搜索 策略 。 面 对 运筹 学 和 ; ”满足 约束 的 完整 赋值 
Local 
$ : repeat 
针对 CSP 问题 图 4-6 给 出 了 通用 for each 变量 X do 
ALV]<-dom(X) 中 的 一 个 随机 值 
的 局 部 搜索 算法 。A 代表 对 每 个 变量 while 不 满足 终止 条 件 且 A 不 是 一 个 满意 的 赋值 do 
赋 一 个 值 。 每 次 循环 的 开始 为 每 个 变 选择 一 个 变量 Y 并 且 选 择 一 个 值 V， VEdom(Y) 
量 赋 随 机 值 。 这 种 赋值 第 一 次 执行 叫 。 | 5， AA ches 
做 随机 初始 化 (random initialization) 。 raan A : 
外 部 循环 的 每 次 迭代 称 为 一 次 尝试 18+i until SE tk 
(try)。 实 施 一 个 新 尝试 的 通用 方法 就 是 图 4-6 为 CSP 问题 寻找 一 个 解 的 局 部 搜索 


执行 一 次 随机 重启 (random restart). 
一 种 代替 随机 初始 化 的 方法 是 使 用 一 个 枸 造 启发 式 条 件 来 猜测 一 个 解 ， 然 后 迭代 
地 改进 。 

在 赋值 空间 内 while 循环 里 执行 的 是 一 个 局 部 搜索 (local search) ， 或 者 说 是 一 次 游 走 
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(walk)。 对 当前 赋值 S， 考 虑 其 邻居 (neighbor)， 并 从 中 选择 一 个 邻居 作为 下 一 次 的 当前 
赋值 。 在 图 4-6 中 ， 一 个 全 赋值 的 邻居 是 那些 与 全 赋值 的 某 一 单个 变量 值 不 同 的 赋值 。 针 
对 邻居 和 集合， 不 同 的 选择 会 产生 不 同 的 搜索 算法 。 

在 赋值 上 的 局 部 搜索 一 直 执 行 直到 找到 满意 的 赋值 为 止 ， 或 者 是 执行 到 终止 条 件 被 满 
足 。 终 止 条 件 决定 了 何 时 停止 当前 的 局 部 搜索 并 且 执 行 一 个 随机 重启 ， 即 用 新 的 赋值 来 重 
新 启动 。 对 于 终止 条 件 ， 最 简单 的 设 定 就 是 规定 其 执行 确定 次 数 的 循环 。 

该 算法 不 能 保证 一 定 会 停止 。 如 果 无 解 ， 那么 算法 将 永远 执行 下 去 。 算 法 也 很 可 能 在 
搜索 空间 的 边缘 被 困 住 。 一 个 算法 每 当 有 和 解 的 时 候 总 能 找到 一 个 答案 ， 那 么 这 个 算法 是 完 
备 的 (complete)。 因 此 上 述 算法 是 不 完备 的 。 

该 算法 的 一 个 实例 是 随机 采样 (random sampling)。 随 机 采样 算法 将 while 内 的 终止 条 
件 置 为 真 ， 因 此 内 部 while 循环 将 不 会 被 执行 。 随 机 采样 将 在 外 部 循环 不 断 地 选取 随机 赋 
值 直到 寻找 到 一 个 满足 约束 的 赋值 ， 和 否则 算法 不 会 停止 。 随 机 采样 的 方法 从 意义 上 来 讲 是 
完备 的 ， 只 要 给 定 充足 的 时 间 ， 如 果 有 解 存在 时 能 确保 找到 一 个 解 ， 但 是 在 时 间 上 却 没 有 
上 界 。 算 法 效率 低 。 算 法 的 效率 仅 取 次 于 域 大 小 和 解 个 数 这 两 个 元 素 的 乘积 。 

算法 的 另 一 个 实例 是 随机 游 走 (random walk) 。 在 这 个 算法 中 ， 只 有 找到 一 个 满意 的 
赋值 ( 即 ，while 内 终止 条 件 总 为 假 且 没有 随机 重启 ) 时 ， 才 会 跳出 while 循环 。 在 while 循 
HA. 算法 随机 地 选择 一 个 变量 和 一 个 值 。 从 意义 上 来 讲 ， 随 机 游 走 和 随机 采样 是 相同 
的 ， 都 是 完备 的 。 算 法 在 每 步 采 用 的 时 间 都 少 于 为 所 有 变量 重新 采样 ， 但 是 却 比 随机 采样 
消耗 更 多 步 ， 主 要 取决 于 解 的 分 布 。 当 变量 域 的 大 小 不 同时 ， 需 要 应 用 随机 游 走 算法 的 各 
种 变 体 。 随 机 游 走 算法 可 以 随机 选择 一 个 变量 然后 随机 选择 一 个 值 ， 也 可 以 成 对 地 随机 选 
择 变量 和 值 。 当 有 一 个 较 大 的 域 时 ， 更 可 能 选择 算法 的 后 一 种 变 体 。 


4.8.1 ERREK 


在 迭代 最 佳 改进 (iterative best improvement) 方 法 中 ， 当 前 被 选择 节点 的 邻居 节点 是 
能 够 优化 评估 函数 (evaluation function) M7 A. AA Bz (greedy descent) 法 中 ， 被 选 
择 的 邻居 节点 是 能 最 小 化 评估 函数 的 节点 。 当 目标 最 大 化 时 ， 这 也 被 称 为 有 血 山 (hill climb- 
ing) ye Me EH (greedy ascent) 法 。 通 常 我 们 只 考虑 最 小 化 ， 如 果 想 最 大 化 一 个 量 ， 
可 以 选择 最 小 化 该 量 的 " 否 ”。 

迭代 最 佳 改 进 需 要 一 个 评估 每 个 整体 赋值 的 方法 。 对 于 CSP 问题 ， 一 个 常见 的 评估 
函数 就 是 最 小 化 在 全 赋值 下 违反 的 约束 的 数量 。 一 个 被 违反 的 约束 可 以 称 为 一 个 冲突 
(conflict) 。 当 评估 函数 是 冲突 数 时 ， 解 则 为 使 得 评估 为 零 的 一 个 全 赋值 。 有 时 也 通过 一 些 
约束 的 权重 来 重 定 义 评估 函数 ， 

局 部 最 优 (local optimum) 是 一 个 赋值 ， 在 该 赋值 下 的 邻居 节点 不 能 够 提升 评估 函数 。 
在 贪 禁 下 降 法 中 ， 局 部 最 优 就 是 局 部 最 小 : 在 仿 梵 上 升 法 中 ， 局 部 最 优 就 是 局 部 最 大 。 

〖 例 4-25) 在 例 4-8 配送 时 序 安排 问题 中 。 假 设 梯度 下 降 初 始 于 这 样 的 赋值 ; A=2. 
B=2, C=3, D=2, E=1, RAE RWEAAB. BADMC<D, HUM KTR 
一 个 为 3 的 评估 。 用 最 小 评估 得 到 了 它 的 邻居 节点 了 B=4， 此 时 因为 只 有 CD 没有 被 满 
足 ， 因 此 产生 了 为 1 的 评估 。 此 时 已 经 是 局 部 最 小 。 接 下 来 一 个 随机 游 走 将 DD 变 为 4， 这 
时 产生 了 为 2 的 评估 。 将 A 变 为 4， 产 生 一 个 为 2 的 评估 , 将 B 变 为 2， 产生 了 为 零 的 评 
估 。 这 样 就 找到 了 一 个 解 。 

下 面 给 出 通过 游 走 得 到 的 赋值 轨迹 : 


RAS Hpk 87 





当 多 个 赋值 可 以 得 到 相同 的 评估 时 ， AS) A es Ae RAS Td 1 PP 2 eH AN I GR. 4 

如 果 变量 有 小 的 有 限 域 ， 当 选择 邻居 时 ， 局 部 搜索 可 以 考虑 变量 其 他 所 有 的 值 。 如 果 变 
量 的 域 很 大 ， 考 卡其 余 所 有 的 值 则 代价 会 很 高 。 一 个 替换 的 策略 是 只 考虑 一 个 变量 的 一 部 分 
的 变量 值 ， 通 常 是 接近 的 值 。 有 时 为 了 选择 一 个 替换 值 ， 会 使 用 一 些 颇 具 匠 心 的 方法 。 

典型 的 局 部 搜索 方法 是 考虑 当前 赋值 的 最 相 邻 的 赋值 ， 即 使 这 个 赋值 与 当前 赋值 是 相 
等 的 或 者 是 更 差 的 。 通 常 快 速 地 做 出 选择 比 花 大 量 时 间 做 出 最 佳 选 择 的 效果 更 好 。 对 邻居 
的 选择 有 多 种 变化 方式 : 

D 将 变量 和 值 一 起 选择 。 在 任意 变量 的 所 有 不 同 赋值 中 ， 选 择 一 个 能 使 评估 函数 最 
小 化 的 赋值 。 如 果 能 使 得 评估 函数 最 小 化 的 赋值 多 余 一 个 ， 那 么 在 它们 中 随机 选择 一 个 。 

2) 先 选 择 一 个 变量 ， 然 后 选择 它 的 值 。 对 于 选择 变量 来 说 ， 有 很 多 种 可 能 性 : 

。 人 掌握 每 个 变量 涉及 了 多 少 个 不 被 满足 的 约束 ， 选 择 一 个 涉及 了 最 多 不 满足 的 约束 

的 变量 。 

。 随机 选择 一 个 涉及 了 任意 不 被 满足 的 约束 的 变量 。 

。 随机 选择 一 个 变量 。 

一 旦 变量 选 定 后 ,算法 就 可 以 选择 变量 值 了 ， 这 个 变量 值 既 可 以 是 产生 最 佳 评估 值 的 
值 ， 也 可 以 是 随机 选取 的 一 个 值 。 

3) 随机 选取 变量 或 者 变量 值 ， 如 果 能 提升 评估 ， 那 么 就 接受 这 个 改变 。 

这 三 种 选择 中 ,成 对 地 优化 变量 -变量 值 比 其 他 两 种 有 更 好 的 效果 ,但 是 需要 花费 更 
多 的 计算 。 尽 管 一 些 理论 性 结果 存在 ， 但 是 在 实际 中 为 了 更 好 地 和 运行， 选择 哪 种 方式 则 是 
经 验 问 题 。 


4.8.2 随机 算法 


迭代 最 佳 改 进 对 当前 赋值 随机 地 选择 了 最 好 邻居 集中 的 一 个 邻居 ， 也 可 以 用 以 下 两 种 
随机 方式 来 跳出 局 部 最 小 值 : 
。 随机 重启 ， 所 有 变量 的 值 被 随机 选择 。 这 使 得 搜索 从 搜索 空间 内 的 一 个 完全 不 同 
的 部 分 再 次 开始 。 
。 随机 游 走 ， 采 用 一 些 随机 移动 ， 其 中 捅 人 一 些 优化 移动 。 在 贪 禁 下 降 中 ， 该 操作 
允许 上 升 的 移动 ， 这 样 可 以 使 随机 游 走 跳出 局 部 最 小 值 。 
随机 游 走 是 一 个 局 部 随机 移动 ， 而 随机 重启 是 一 个 全 局 随机 移动 。 当 问题 涉及 很 多 变 
量 时 ， 随 机 重启 消耗 代价 大 。 
利用 随机 移动 的 一 种 混合 贪 焚 下 降 法 是 一 类 算法 的 实例 ， 这 类 算法 称 为 随机 局 部 搜索 
(stochastic local search) 。 
但 因 搜 索 空 间 常 常 有 成 千 上 万 的 维度 ， 且 每 一 维 都 有 一 个 离散 值 的 集合 ， 所 以 很 难 将 
算法 执行 的 搜索 空间 可 视 化 。 一 些 直觉 的 结果 可 以 从 低 维 问 题 中 收集 到 。 考 虑 图 4-7 中 的 
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两 个 一 维 搜索 空间 ， 在 图 中 想 要 得 到 最 小 值 。 假 设 可 以 通过 对 当前 位 置 进行 向 左 或 向 右 的 
一 个 小 的 移动 来 获得 邻居 位 置 。 为 了 在 搜索 空间 (a) 内 寻找 全 局 最 小 的 值 ， 我 们 希望 利用 
随机 重启 的 贪 束 下 降 法 来 快速 获得 这 个 最 优 值 。 一 旦 随机 选择 找到 了 最 深 的 谷中 的 一 点 ， 
那么 贪 禁 下 降 将 会 快速 趋向 于 全 局 最 小 。 因 为 许多 随机 移动 都 被 要 求 跳出 当前 的 一 个 局 部 
极 值 ， 所 以 随机 游 走 法 在 搜索 空间 (a) 中 就 不 会 有 很 好 的 效果 。 但 是 ， 随 机 重启 在 搜索 空 
间 (b) 中 就 会 被 快速 地 困 在 锯齿 的 峰值 上 ， 上 且 不 能 得 到 好 的 结果 。 但 是 ， 贪 禁 下 降 和 随机 
游 走 的 组 合 就 可 以 跳出 这 些 局 部 极 值 ， 而 且 使 用 一 次 移动 或 者 两 次 移动 可 能 就 足够 跳出 这 
个 局 部 极 值 。 因 此 ， 随 机 游 走 在 搜索 空间 (b) 中 就 有 很 好 的 效果 。 
搜索 空间 (a) 搜索 空间 (b) 


图 47 两 个 寻找 最 小 值 的 搜索 空间 


以 上 呈现 的 局 部 搜索 是 没有 存储 的 ， 在 执行 的 过 程 中 不 记录 搜索 行为 。 用 存储 来 提升 局 
部 搜索 的 一 种 简单 方法 就 是 禁忌 表 (tabu list)， 这 个 禁忌 表 中 存 有 最 近 被 更 改过 的 变量 -变量 
值 。 禁 鼠 表 的 思想 是 当选 择 一 个 新 的 赋值 时 ， 不 得 选择 禁忌 表 中 的 变量 -变量 值 。 该 方法 阻 
止 了 在 一 些 赋值 中 不 断 循环 。 禁 鼠 表 的 大 小 一 般 是 一 个 小 的 固定 值 ， 而 禁忌 表 的 大 小 也 是 可 
以 被 优化 的 参数 。 当 禁忌 表 大 小 为 1 时 ， 等 价 于 不 允许 同样 的 赋值 被 立即 重新 访问 。 

各 种 算法 的 不 同 之 处 在 于 它们 采用 了 多 少 工作 量 来 确保 最 佳 改 进 。 举 一 个 极端 的 情 
况 ， 算 法 在 选择 新 赋值 时 可 以 确保 给 出 的 是 相对 于 所 有 邻居 的 最 佳 改进 。 另 一 个 极端 的 情 
况 是 ， 算法 随机 地 选取 一 个 新 的 赋值 ， 并 且 拒 绝 使 情况 更 糟 的 赋值 。 本 节 的 剩余 部 分 将 给 
出 一 些 典 型 算法 ， 各 种 算法 的 不 同 之 处 在 于 它们 付出 了 多 少 计算 工作 量 来 确保 完成 最 佳 改 
进 。 哪 个 方法 能 取得 最 好 的 效果 通常 是 一 个 经 验 问题 。 

1. 常用 的 改进 手段 

第 一 种 方法 总 是 成 对 地 选择 变量 -变量 值 来 完成 最 佳 改进 。 最 朴素 的 办 法 就 是 线性 地 
扫描 每 个 变量 和 它 的 每 个 变量 值 ， 然 后 对 比 当前 的 所 有 变量 的 赋值 决定 哪个 赋值 能 使 得 不 
被 满足 的 约束 数量 最 少 ， 进 而 选择 一 个 能 产生 最 佳 改进 的 变量 -变量 值 对 ， 即 使 这 个 改进 
是 有 人 负面 影响 的 。 当 变量 数 为 n， 平均 域 大 小 为 &， 一 个 赋值 的 邻居 数 为 时， 这 一 步 的 
复杂 度 是 O(ndr)。 

一 个 更 精细 的 蔡 换 策略 是 设置 一 个 变量 -变量 值 的 优先 队列 。 对 于 任意 的 变量 X, 值 v 
E X 的 域内 ， 并 且 在 当前 赋值 下 变量 X 没有 被 赋值 为 wv， 那么 (XX，v) 对 就 将 被 填 入 优先 
队列 。《 久 ，v) 的 权重 为 当前 完整 赋值 的 评估 减 去 将 X 替换 为 的 完整 赋值 的 评估 。 也 就 
是 说 ， 它 包含 了 每 个 替换 值 的 评估 变化 。 在 每 个 阶段 ， 算 法 选择 一 个 最 小 权重 值 ， 这 个 值 
则 是 邻居 所 能 提供 的 最 佳 改 进 。 

一 旦 变量 X 被 赋予 一 个 新 值 ， 那 么 所 有 变量 中 有 多 个 权重 将 被 改变 ， 必 须 重 新 计算 
后 插入 优先 队列 中 。 当 被 赋予 v 值 时 ， 被 更 改 权重 的 那些 变量 是 由 于 这 个 新 值 而 出 现在 
一 个 被 满足 或 不 被 满足 约束 中 的 变量 。 
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当 变量 数 为 ns 平均 域 大 小 为 4， 一 个 赋值 的 邻居 数 为 + 时， 算法 这 一 步 的 复杂 度 是 
O(log nd+rdlog nd). 

由 于 算法 在 每 次 都 要 确保 最 大 的 改进 ， 因 此 在 掌握 数据 的 结构 方面 花费 了 太 多 时 间 。 

2. 两 阶段 选择 

一 个 替换 策略 是 将 成 对 选择 变量 -变量 值 策 略 进行 分 割 ， 首 先 选 择 一 个 变量 进行 更 改 ， 
然后 再 选择 一 个 值 。 

该 算法 也 有 一 个 变量 优先 队列 ， 队 列 中 变量 的 权重 为 变量 所 参与 的 冲突 约束 数 。 每 次 
算法 都 选择 一 个 具有 最 大 权重 的 变量 。 一旦 变量 被 选中 ， 那 么 这 个 变量 将 被 赋予 一 个 能 最 
小 化 约束 冲突 数 的 值 。 作 为 最 新 赋值 的 一 个 结果 ， 每 个 变量 的 约束 冲突 的 值 也 会 发 生 改 
变 ， 其 余 参 与 到 这 个 冲突 的 变量 的 权重 也 需要 被 更 改 。 

算法 这 一 步 的 复杂 度 是 O(log nn 十 rlog n)。 对 比 成 对 地 选择 最 佳 变量 -变量 值 方 法 ， 该 
算法 在 每 次 移动 中 做 的 工作 量 较 小 ， 但 在 固定 时 间 间 隔 内 需要 完成 更 多 的 移动 。 尽 管 这 些 
移动 倾向 于 完成 较 小 的 改进 ， 但 是 在 移动 数 和 每 次 移动 的 复杂 度 两 者 间 的 权衡 需要 经 验 性 
的 评估 。 

3. 任意 冲突 r 

相对 于 选择 最 佳 的 移动 ， 一 个 更 为 简单 的 替换 策略 是 选择 参与 约束 冲突 的 任意 变量 ， 
并 改变 它 的 值 。 在 每 一 次 移动 随机 任意 选择 一 个 参与 到 不 满足 约束 的 变量 。 该 算法 将 赋予 
这 个 变量 一 个 能 最 小 化 约束 冲突 数 的 值 。 

为 了 完成 这 个 替换 策略 ， 我 们 需要 一 个 数据 结构 ， 用 这 个 结构 来 表示 涉及 一 个 约束 冲 
突 的 变量 集合 C。 该 数据 结构 应 被 设计 为 可 以 快速 选择 C 中 的 一 个 随机 成 员 。 当 X 的 值 发 
生 改 变 时 ， 每 个 包含 X 的 约束 都 被 检查 。 对 于 每 个 变 为 不 被 满足 的 约束 ， 所 有 包含 在 该 
约束 中 的 变量 都 被 添加 到 C 中 。 对 于 每 个 变 为 满足 的 约束 ， 存 在 包含 在 该 约束 内 且 不 包含 
在 另 一 个 不 被 满足 的 约束 中 的 变量 ， 将 这 些 变量 从 C 中 删除 。 检 查 一 个 变量 是 否 包含 在 另 
一 个 冲突 约束 中 的 方法 是 掌握 每 个 变量 的 一 组 冲突 数 ， 这 个 数 在 一 个 约束 变 为 不 被 满足 时 
将 增加 ， 在 约束 变 为 被 满足 时 将 减少 。 

可 以 将 随机 移动 、 随 机 重启 和 禁忌 表 机 制 与 上 述 算法 组 合 使 用 。 

4. 模拟 退火 

最 后 一 种 方法 将 不 再 获取 约束 冲突 数据 的 结构 ， 取 而 代 之 的 是 随机 地 选择 一 个 邻居 ， 
然后 对 于 新 赋值 选择 接受 还 是 拒绝 。 

退火 是 冶金 术 中 的 一 个 过 程 ， 在 金属 慢 慢 冷却 的 过 程 中 ;使 它们 达到 一 个 低能 量 的 状 

态 。 模 拟 退 火 是 一 种 类 似 最 优化 的 方法 。 它 用 热力 学 的 术语 来 描述 。 随 机 运动 对 应 了 高 
温 ; 在 低温 条 件 下 则 有 很 小 的 随机 性 。 模 拟 退 火 的 执行 过 程 是 从 在 高 温 下 进行 随机 搜索 开 
始 ， 然 后 温度 慢 慢 降 低 ， 最 后 到 达 零 度 时 变 成 纯 贪 禁 下 降 。 随 机 性 应 该 倾向 于 跳出 局 部 极 
值 ， 并 且 找 到 一 个 低 启 发 值 作 为 邻 域 : 贪 禁 下 降 的 过 程 中 将 导致 局 部 最 小 。 高 温 条 件 比 低 
温 条 件 更 有 可 能 导致 逐步 恶化 。 
. 模拟 退火 掌握 了 当前 变量 的 一 个 赋值 情况 。 在 每 一 移动 中 ， 随 机 选取 一 个 变量 ， 并 且 随 
机 选取 一 个 值 。 如 果 对 该 变量 的 赋值 是 一 个 改进 或 者 它 没 有 增加 约束 冲突 数 ， 那 么 算法 接受 
这 个 赋值 ， 并 依 此 作为 当前 的 新 赋值 。 另 外 ， 算 法 概率 性 的 接受 赋值 ， 这 取决 于 当前 的 温度 
和 新 赋值 比 当前 赋值 差 了 多 少 。 如 果 当 前 的 改变 不 被 接受 ， 那 么 当前 赋值 也 不 会 被 改变 。 

为 了 控制 变化 到 什么 程度 是 可 以 被 接受 的 ， 设 定 一 个 正 实 值 的 温度 T. 假设 A 是 当前 
HERE., B hE A 被 最 小 化 的 评估 值 。 为 了 解决 约束 问题 ，h 通常 为 约束 冲突 


[136] 
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数 。 模 拟 退 火 随机 地 选择 一 个 邻居 ， 给 出 新 的 赋值 A 。 如 果 有 (A 过 A(A)， 算 法 接受 赋 
值 A ， 并 把 其 作为 新 的 赋值 。 和 否则 ， 这 个 赋值 仅 以 下 述 这 个 概率 被 随机 接受 ， 


h(AY—hCA YI 
et AA DIT 


这 样 ， 如 果 h(A') 与 (A) 很 接近 ， 那 么 被 接受 的 可 能 性 会 更 大 。 如 果 温 度 很 高 ， 那 么 指 
数 趋 近 于 0， 接 受 概率 则 接近 1。 当 温度 接近 0 时 ， 指 数 接近 一 se， 且 接 受 概率 接近 0， 

图 4-8 中 给 出 了 不 同 温度 下 逐步 变 差 的 接受 概率 。 图 中 , k EER hA) hA) = 
&。 例 如 ， 如 果 温 度 为 10(T=10)， 改 变 为 ]-worse(h(4) 一 h(a') 二 一 1) 的 接受 概率 是 
e “120. 9。 改 变 为 2-worse 的 接受 概率 为 ee "2 二 0.82。 如 果 温 度 是 1， 改变 为 l-worse 的 
接受 概率 是 e 10.37, WRU 0.1, MAH 1-worse 的 接受 概率 是 em 二 0.000 05, 
这 个 温度 下 ， 它 本 质 上 仅 是 一 个 提升 赋值 或 维持 不 变 的 操作 。 

如 果 像 了 =10 这 种 情况 ， 温度 很 高 时 ， 算 法 倾向 于 接受 变 差 程度 很 小 的 移动 ; 不 倾向 
于 接受 变 差 程 度 很 大 的 移动 。 算 法 对 于 改进 的 移动 有 轻微 的 偏好 。 当 温度 减少 时 (例如 ， 
当 T= 二 1 时 )， 尽 管 变化 的 移动 是 有 可 能 的 , 但 是 可 能 性 较 小 。 当 温度 非常 小 时 (例如 ， 当 
T=0. 1 时 )， 选 择 一 个 变 差 的 移动 将 非常 罕见 。 

模拟 退火 需要 一 个 退火 计划 (Cannealing schedule) ， 这 个 计划 说 明 在 搜索 的 过 程 中 ， 温 
度 是 怎样 下 降 的 。 儿 何 冷 却 法 是 一 个 被 广泛 应 用 的 计划 。 例 如 ， 几 何 冷却 计划 开始 于 温度 
10， 且 每 次 移动 乘 以 0.97， 在 100 次 移动 后 温度 将 变 为 0. 48。 找 到 一 个 好 的 退火 计划 是 
一 种 艺术 。 


接受 概率 
1-worse 2-worse 3-worse 
10 0.9 0. 82 0. 74 
1 0, 37 0. 14 0, 05 








0. 25 0.018 0. 000 3 0, 000 006 
0.1 0. 000 05 2X 1079 9X10 14 
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当 随 机 算法 给 出 一 个 不 同 的 结果 和 一 个 不 同 的 运行 时 间 时 ， 即 使 是 对 同样 的 问题 ， 这 
些 算法 也 很 难 相 互 比较 。 当 有 时 算法 不 能 找到 一 个 解 时 ， 比 较 起 来 就 显得 更 为 困难 ， 这 时 
算法 要 么 永远 运行 下 去 ， 要 么 终止 于 一 个 任意 位 置 。 

不 幸 的 是 ， 像 运行 时 间 的 平均 值 或 中 位 值 ， 这 类 汇总 统计 在 比较 算法 上 并 不 是 很 有 
效 。 例如， 如 果 想 用 运行 时 间 的 平均 值 来 比较 算法 ， 那 么 就 必须 考虑 算法 运行 失败 的 时 候 
《没有 找到 解 ) 怎 样 计算 平均 值 。 如 果 在 计算 平均 值 上 忽略 这 些 运行 失败 的 情况 ， 那 么 随机 
地 选择 一 个 赋值 然后 就 停止 ， 这 类 算法 将 成 为 最 好 的 算法 ， 因 为 这 类 方法 几乎 都 失败 了 ， 
但 是 一 旦 成 功 了 ， 速 度 是 最 快 的 。 如 果 将 无 法 停止 的 算法 算 成 是 无 限时 间 ， 那 么 所 有 算法 
都 存在 寻找 不 到 解 的 情况 ， 则 变 成 算法 平均 运行 时 间 都 是 无 限 的 。 如 果 把 规定 停止 时 间作 
为 无 停止 运行 的 时 间 ， 尽 管 允 许 在 更 快 地 找到 一 些 解 和 找到 更 多 的 解 之 间 寻 求 一 种 基本 的 
权衡 ,但 以 此 方式 使 用 均值 的 评价 更 多 是 针对 停止 时 间 的 函数 ， 而 不 是 算法 本 身 。 

如 果 用 运行 时 间 的 中 位 数 来 比较 算法 ， 那 么 一 个 算法 以 非常 慢 的 速度 完成 间 题 的 51% 
会 比 男 一 个 以 非常 快 的 速度 完成 问题 的 49% 得 到 更 好 的 评价 ， 然 而 事实 上 后 一 个 算法 更 有 
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EH. 3X1) HE F PARGA EAE, RA eT LA 47% 或 者 87% 的 值 。 

对 于 一 个 实际 问题 ， 可 视 化 算法 运行 时 间 的 一 个 方法 是 使 用 运行 时 间 分 布 图 (run-time 
distribution) 。 该 分 布 在 单个 问题 上 能 够 体现 随机 算法 在 运行 时 间 方 面 的 变化 性 。 在 工 轴 
上 既 可 以 标注 为 移动 的 次 数 ， 也 可 以 标注 为 运行 的 时 间 。 对 于 z 轴 上 的 每 个 值 ，y 轴 表 示 
在 运行 时 间 内 或 移动 次 数 内 ,算法 解决 问题 的 次 数 或 解决 的 比例 。 因 此 ， 它 提供 了 一 个 妮 
积 的 分 布 ， 这 个 分 布展 示 了 在 某 些 移动 数 上 或 者 某 些 运行 时 间 上 问题 多 长 时 间 被 解决 一 
次 。 例 如 ， 可 以 通过 y 轴 刻 度 的 30% 映 射 到 x 轴 上 的 值 ， 从 而 找到 运行 了 30% Mie tT 
间 。 运行 时 间 分 布 图 可 以 通过 多 次 运行 算法 绘制 (或 近似 ) 出 来 (可 以 说 运行 100 次 是 粗糙 
近似 ，1000 次 是 合理 准确 地 绘制 )， 然 后 用 运行 时 间 进 行 排序 。 

[B] 4-261 图 4-9 给 出 了 对 于 单个 问题 4 种 经 验 性 的 随机 算法 产生 的 运行 时 间 分 布 
图 。z 轴 以 对 数 指标 表示 了 算法 移动 次 数 。y 轴 表 示 在 1000 次 中 当前 问题 被 成 功 解决 的 实 
例 数 。 图 展现 了 在 同一 问题 上 的 4 个 运行 分 布 图 。 算 法 1 和 2 在 第 10 步 或 者 更 少 移动 的 
情况 下 完成 了 问题 的 40%。 算 法 3 在 执行 到 10 或 者 更 少 移动 的 情况 下 完成 了 间 题 的 
50%。 算 法 4 在 执行 到 10 或 者 更 少 移动 的 情况 下 完成 了 问题 的 12%。 算 法 1 和 2 在 58% 
的 时 间 内 能 找到 一 个 解 ， 算 法 3 在 80% 的 时 间 内 能 找到 一 个 解 ， 而 算法 4 总 能 找到 一 个 
解 。 这 仅仅 比较 了 移动 的 次 数 。 所 耗 时 间 会 是 更 好 的 度量 方式 , 但 是 对 于 小 问题 来 说 ， 度 
量 起 来 会 比较 困难 ， 并 且 还 取决 于 一 些 具体 的 手段 。 < 
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图 4-9 运行 时 间 分 布 图 。 这 是 运行 1000 次 的 运行 时 间 分 布 图 ， 每 次 运行 限制 在 1000 次 移动 以 内 。 工 轴 
以 对 数 指标 表示 了 算法 移动 次 数 ，y 轴 表 示 1000 次 中 成 功 解决 数 。 这 个 是 CSP 样 例 中 Alspace， 
org 的 “调度 问题 1”。 分 布 图 1 和 2 是 两 阶段 贪 歼 下 降 法 的 两 次 独立 的 运行 。 算 法 3 是 一 阶段 仿 
禁 下 降 法 。 算 法 4 是 使 用 随机 行走 的 贪 整 下降 法 ， 选 择 的 开始 节点 是 参与 到 约束 冲突 的 节点 (在 
Alspace. org 内 的 红色 节点 )， 变 量 的 最 佳 值 以 50% 的 概率 被 选择 ,否则 选择 一 个 随机 值 


如 果 一 个 算法 的 运行 时 间 分 布 图 始终 处 于 另 一 算法 分 布 图 的 左上 方 ， 那么 就 说 第 一 个 
算法 严格 支配 第 三 个 算法 。 这 种 度量 方式 下 ， 往 往 两 个 算法 是 不 可 比 的 。 哪 个 算法 更 好 取 


决 于 所 能 接受 的 运行 时 间 和 找到 一 个 解 的 重要 性 。 
在 算法 执行 了 一 定量 的 移动 后 ,我 们 则 可 以 用 运行 时 间 分 布 图 去 预测 车 使 用 随机 重启 
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后 该 算法 的 效果 。 直 观 地 说 ， 在 重启 发 生 时 ， 随 机 重启 将 重复 并 适当 缩减 分 布 图 的 左下 
角 。 如 果 运 行 时 间 足 够 ， 在 执行 了 一 定量 贪 焚 下 降 的 移动 后 ， 使 用 随机 重启 的 策略 可 以 将 
那 行 有 时 能 找到 解 的 算法 变 成 总 是 能 找到 解 的 算法 。 

【 例 4-27) 图 4-9 中 ,算法 3 支配 算法 1 和 2。 算 法 1 和 2 实际 上 是 相同 方法 在 相同 
设置 下 对 不 同 集合 的 执行 。 这 也 是 相同 的 随机 算法 在 相同 实例 上 多 重 运行 的 典型 错误 。 算 
法 3 在 移动 为 60 之 前 都 优 于 算法 4， 但 之 后 算法 4 较 好 。 

观察 图 片 ， 算 法 3 常常 在 它 最 先 的 4 或 5 次 移动 时 等 到 解 ， 之 后 就 没 那么 有 效 。 这 使 
我 们 想到 ， 可 在 算法 3 的 每 5 次 移动 后 设置 随机 重启 (每 次 重启 算 一 次 移动 )。 这 么 做 也 确 
实 使 得 算法 3 对 于 该 问题 实例 在 一 定 移动 数 下 支配 其 他 所 有 算法 。 尽 管 如 此 ， 因 为 随机 重 
启 是 代价 较 高 的 操作 ， 所 以 该 算法 未 必 是 最 有 效 的 ， 也 没有 必要 去 预测 该 算法 在 其 他 实例 
问题 上 的 效果 。 < 


4.8.4 局 部 搜索 中 利用 命题 结构 


如 果 CSP 问题 是 命题 可 满足 问题 ， 这 些 问 题 由 二 元 变量 和 约束 子 句 构成 ， 那 么 随机 
局 部 搜索 处 理 起 来 会 更 加 简单 。 因 为 以 下 三 个 原因 ， 局 部 搜索 的 每 一 步 都 会 变 得 更 加 
有 效 : 

。 因为 对 于 每 套 赋值 的 每 个 变量 ， 仅 有 一 个 鞭 换 值 存 在 ， 所 以 算法 不 必 去 搜索 替 
换 值 。 

。 在 不 被 满足 的 子 句 中 改变 任何 一 个 值 都 使 得 子 句 变 为 被 满足 的 。 这 就 使 得 子 句 很 
容易 被 满足 ， 但 是 这 可 能 导致 其 他 子 句 变 为 不 被 满足 的 。 

。 如 果 一 个 变量 被 更 改 为 true， 那 么 只 要 包含 它 的 否 的 那些 子 句 都 不 被 满足 。 类 似 
推断 变量 值 变 为 false。 这 使 子 名 的 索引 可 以 非常 快速 。 

任意 有 限 的 CSP 问题 都 有 可 能 被 转化 为 一 个 命题 可 满足 问题 。 具 有 域 {w ，…，vwi}) 的 

变量 了 可 以 被 转化 为 个 二 元 变量 {Y,， my Fety 4 Y; 为 真 时 表示 Y 取 值 v, 取 其 他 值 
时 为 假 。 每 个 到 可 以 被 称 为 一 个 指示 变量 (indicator variable) 。 在 每 个 约束 中 针对 每 个 为 
假 的 元 组 都 有 一 个 子 句 ， 该 子 句 指 出 Y; 的 哪个 赋值 是 不 满足 约束 的 。 有 的 约束 也 指出 在 
iA. Y: MY, 不 能 同时 为 真 。 也 有 约束 可 能 要 求 变量 Y; 必须 为 true 。 将 CSP 问题 转化 
为 命题 可 满足 问题 有 三 点 潜在 优势 : 

。 每 个 局 部 移动 可 以 更 简单 ， 因 此 执行 起 来 更 为 有 效 。 

。 搜索 空间 被 扩展 。 实 际 上 在 找到 一 个 解 之 前 ， 可 以 不 止 一 个 Y; 为 true (对 应 了 变 
HY AZM MA WAY, 都 为 false (对 应 了 变量 Y AS). RRB. ER 
问题 中 的 局 部 最 小 的 赋值 ， 在 新 间 题 中 就 可 能 不 再 是 局 部 最 小 。 

。 相 比 其 他 类 型 的 CSP 问题， 命题 可 满足 性 被 更 广泛 地 研究 。 由 于 研究 者 针对 命题 
可 满足 做 了 更 多 的 算法 研究 ， 所 以 当前 有 更 多 有 效 的 解决 办 法 。 

在 一 个 实际 问题 中 ， 这 种 转换 是 否 能 令 搜索 有 更 好 的 效果 同样 也 是 一 个 经 验 问题 。 


4.9 基于 种 群 的 方法 


之 前 的 局 部 搜索 算法 都 是 维护 当前 一 个 单独 的 赋值 方案 。 本 节 研 究 的 算法 将 维护 多 个 
赋值 方案 。 第 一 种 方法 是 集束 搜索 ， 维 护 了 最 佳 的 个 赋值 方案 。 接 下 来 的 随机 集束 搜索 
将 概率 性 地 随机 选择 多 个 赋值 方案 。 在 受 生物 进化 启发 的 遗传 算法 中 ,，& 个 赋值 方案 组 成 
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了 一 个 相互 作用 的 种 群 ， 使 用 各 种 方法 将 该 种 群 进化 到 一 个 新 的 种 群 。 在 这 些 算法 中 ， 对 
每 个 变量 都 赋 一 个 值 的 全 赋值 被 称 为 个 体 (individual)， 且 当前 个 体 的 集合 称 为 种 群 C(popu- 
lation) 。 

集束 搜索 (beam search) 是 一 个 类 似 于 迭代 最 佳 改 进 的 方法 ,但 是 该 方法 不 是 维护 一 个 
赋值 ， 而 是 同时 维护 个 赋值 。 当 算法 找到 一 个 满足 约束 的 赋值 时 ， 则 会 报告 成 功 。 算 法 
的 每 个 阶段 都 会 选择 当前 个 体 的 k 个 最 佳 邻居 ( 当 少 于 有 个 时 则 将 它们 全 部 选中 ) 且 同时 随 
机 选择 。 算 法 使 用 新 的 个 赋值 方案 的 集合 重复 执行 。 

集束 搜索 同时 考虑 了 多 个 赋值 方案 。 该 算法 对 存储 有 界 的 案例 比较 有 用 , 上 的 选择 取 
决 于 可 用 的 存储 空间 。 

随机 集束 搜索 (stochastic beam search) 是 集束 搜索 的 一 个 替换 策略 ， 不 适用 选择 最 佳 
k 个 个 体 的 策略 ， 而 是 随机 地 选择 & 个 个 体 ， 更 倾向 于 选择 能 得 到 更 好 评估 的 个 体 。 这 样 
的 选择 需要 两 个 函数 ， 一 个 是 概率 选择 函数 ， 男 一 个 是 评估 函数 。 标 准 的 方法 是 使 用 吉 布 
斯 分 布 (Gibbs distribution) My ik ARE SBD FH (Boltzmann distribution), ， 用 如 下 的 概率 比 
例 去 选择 一 个 赋值 方案 A: 


@—tA/T 


这 里 h(A) 是 评估 函数 ,是 温度 。 

随机 集束 搜索 倾向 于 允许 在 个 个 体 中 具有 更 多 差异 性 ， 而 不 是 普通 的 集束 搜索 。 用 
生物 进化 学 的 术语 ， 评估 函数 反映 了 个 体 的 适应 度 ; 越 适应 的 个 体 就 越 有 可 能 被 通过 ， 这 
意味 着 这 个 赋值 方案 的 一 部 分 在 下 一 种 群 中 是 好 的 。 随 机 集束 搜索 就 像 一 个 无 性 繁殖 的 过 
程 ， 每 个 个 体 给 出 了 具有 人 少量 变异 的 孩子 ， 然 后 随机 集束 搜索 处 理 这 些 具 有 最 佳 适应 度 的 
存活 个 体 。 需 要 注意 的 是 ， 在 随机 集束 搜索 中 ,一 个 个 体 可 能 被 随机 地 多 次 选择 。 

遗传 算法 (genetic algorithm) 进一步 完善 了 类 演化 的 过 程 。 它 和 随机 集束 搜索 很 像 ， 
但 是 种 群 中 的 每 个 元 素 是 有 区 别 的 。 在 遗传 算法 中 ， 种 群 内 的 每 个 新 元 素 变 为 个 体 - 个 体 
父 代 的 成 对 组 合 。 尤 其 是 遗传 算法 选择 成 对 的 个 体 ， 针 对 子 代 变量 的 值 ， 某 些 值 从 其 中 一 
个 父 代 选取 ， 番 下 的 值 从 另 一 个 父 代 选取 ， 进 而 创作 一 个 新 的 个 体 。 这 一 过 程 有 点 类 似 于 
有 性 繁殖 的 DNA 的 拼接 过 程 。 

遗传 算法 中 ， 这 一 新 的 操作 被 称 为 交叉 (crossover)。 均 勾 交 叉 是 选择 两 个 个 体 ( 双 
亲 ) ， 创 造 两 个 新 个 体 称 为 子 代 (children) 。 在 一 个 子 代 中 ， 每 个 变量 的 值 都 来 自 双亲 中 的 
一 个 。 一 个 普通 的 方法 是 单 点 交叉 (one-point crossover) ， 该 方法 假设 变量 有 一 个 总 体 的 
排序 。 一 个 索引 i 被 随机 地 选择 ， 然 后 在 i 之 前 的 变量 的 值 从 一 个 父 代 中 选取 ， i 之 后 的 变 
量 的 值 从 另 一 个 父 代 选取 ， 用 这 样 的 方式 来 构建 子 代 中 的 一 个 孩子 。 该 算法 交叉 操作 的 有 
效 性 取决 于 变量 的 整体 排序 。 变 量 的 排序 也 是 设计 和 遗传 算法 的 一 部 分 工作 。 

假设 有 一 个 个 (& 是 偶数 ) 个 体 的 种 群 。 一 个 基本 的 遗传 算法 需要 维护 个 个 体 (k 个 
个 体 共 同 作为 一 代 ) ， 并 且 使 用 这 个 个 体 ， 通 过 如 下 步骤 产生 新 的 一 代 : 

。 随机 选择 个 体 对 ， 更 能 适应 的 个 体 被 选择 的 可 能 性 更 大 。 一 个 更 适应 的 个 体 比 另 

一 个 个 体 多 出 多 少 被 选择 的 可 能 性 这 主要 取决 于 不 同 的 适应 度 标准 和 一 个 温度 
参数 。 
。 对 每 一 个 体 对 执行 一 次 交叉 。 
。 对 于 一 些 随 机 选择 的 变量 ， 通 过 选择 一 SARS TE ay ERE Oe Ae?) 
这 是 一 个 随机 游 走 的 移动 操作 。 
延续 这 种 处 理 直 到 创建 了 & 个 个 体 ， 并 且 对 下 一 代 执 行 该 操作 ， 算 法 在 图 4-10 中 给 出 。 
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【 例 4-28〗 例 4-8 中 ,假设 我 们 使 用 了 和 例 4-25 一 样 的 评估 函数 ， 也 就 是 不 被 满足 的 


HRM. HH A=2, B=2, C=3, 
D=1, E=1 的 评估 值 为 4。 形 成 这 个 
较 低 的 评估 ( 较 少 不 被 满足 的 约束 )， 
主要 是 因为 E 王 1。 那 么 保留 这 个 值 的 
子 代 将 比 不 保留 这 个 值 的 子 代 更 有 可 
能 获得 更 低 的 评估 值 ， 更 有 可 能 存活 
(评估 值 越 小 代表 被 满足 的 约束 越 多 )。 
其 他 个 体 获 得 较 低 评估 值 的 原因 可 能 
就 不 同 ， 例如 ， 个 体 A=4, B=2, 
C=3, D=4, E=4W iF fH RW 
4， 这 主要 是 由 于 前 四 个 变量 的 赋值 。 
同样 的 ， 子 代 保 留 这 个 性 质 比 不 保留 
更 有 适应 能 力 ， 更 可 能 存活 。 如 果 这 
两 个 个 体 进行 配对 ， 那么 子 代 中 的 一 
些 个 体 将 会 继承 两 者 的 劣质 属性 ， 并 
且 将 死亡 。 子 代 中 的 一 些 个 体 也 将 会 
偶然 地 继承 两 者 的 优秀 属性 ， 将 有 和 较 
高 的 存活 机 会 。 < 

正如 在 其 他 的 随机 局 部 搜索 算法 
中 一 样 ， 设计 特征 和 评估 函数 是 困难 
的 ， 因 此 算法 不 能 摆脱 局 部 极 值 。 算 
法 的 有 效 性 对 描述 问题 的 变量 和 变量 
顺序 敏感 。 这 一 研究 工作 也 是 门 艺 术 。 
在 其 他 的 许多 启发 式 算法 中 ， 进 化 算 
法 有 很 大 的 自由 度 ， 因 此 针对 良好 性 
方面 比较 难以 配置 和 调整 。 而 且 类 似 
自然 演化 的 过 程 容易 造成 误导 性 ， 因 
为 自然 界 演化 对 组 合 决策 和 最 优化 问 
题 给 出 的 并 不 总 是 最 佳 策略 。 


1; procedure GeneticAlgorithm(V, dom, C, S, k) 


Inputs 
V: 变量 集合 
dom: RRM, BRM dom(X) HEM X 的 域 
C: YY 上 的 约束 集合 
S: 针对 温度 的 退火 计划 
;种群 大 小 一 个 偶数 


Output 
满足 约束 的 完整 赋值 
Local 
Pop: 赋值 集合 
T: real 
Popek 4°52 16 hy MPL 
T AGES 被 赋予 的 值 
repeat 
if —2£ AE Pop 满足 C 中 的 所 有 约束 then 
return A 
Npop<—{} 
repeat £/2 times 
A,=RandomSelection(Pop, T) 
A,+RandomSelection( Pop, T) 
Nis Ny«Combine(A,, Az) 
Npop=-N pop{mutate(N,), mutate(N,)} 
Pop=-N pop 
根据 S 更 新 工 
until 终止 


: procedure RandomSelection( Pop, T) 


从 Pap 中 以 e 的 概率 选择 到 


return A 


: procedure Combine(A,, As) 


随和 机 选择 整数 i，1<i< |V| 

令 Ni- (X, =o) € Are JSIRUX =u, EA: j>i) 
F NiX =) EA FSi) UL X=) CA, F> 7} 
return N,, N; 





4-10 为 CSP 问题 寻找 一 个 解 的 遗传 算法 


大 量 研究 人 员 研 究 了 遗传 算法 在 真实 问题 上 的 实用 性 ， 并 得 出 了 一 些 有 价值 的 结论 。 


本 节 所 描述 的 只 是 遗传 算法 的 一 种 。 
4.10 最 优化 


通常 我 们 不 是 仅仅 考虑 存在 或 不 存在 可 能 世界 可 以 满足 约束 ， 而 是 想得到 一 个 最 好 的 


可 能 世界 。 在 可 能 世界 中 经 常 存在 一 个 偏好 (preference) 关 系 ， 我 们 需要 对 应 偏好 得 到 最 
好 的 可 能 世界 。 这 个 偏好 经 常 是 最 小 化 某 些 误差 。 

给 出 一 个 最 优化 问题 Coptimization problem) : 

。 一 个 变量 集 ， 每 个 变量 有 关联 的 域 ; 

。 一 个 目标 函数 (objective function)， 该 目标 函数 将 赋值 方案 映射 到 一 个 实数 ; 
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”一 个 最 优化 标准 (optimality criterion) ， 用 该 准则 找到 一 个 能 最 大 化 或 最 消化 目标 

函数 的 赋值 方案 。 

这 说 明 要 根据 最 优化 标准 来 找到 一 个 最 佳 的 赋值 方案 。 例 如 ， 最 优化 标准 就 是 最 小 化 
目标 函数 . 

约束 优化 问题 (constrained optimization problem) 是 具有 强 约 束 的 最 优化 问题 ， 这 些 强 
约束 指明 了 变量 的 赋值 是 否 可 能 。 也 就 是 说 ， 需 要 找到 一 个 最 好 的 赋值 ， 该 赋值 满足 硬 
约束 。 

已 经 有 大 量 的 文献 对 最 优化 进行 了 研究 。 对 于 实际 的 有 约束 最 优化 问题 ， 也 存在 了 
很 多 技术 。 例 如 ， 线 性 规划 是 一 类 有 约束 最 优化 技术 ， 这 里 变量 都 是 实 值 的， 目标 函数 
是 变量 组 成 的 一 个 线性 函数 ， 并 且 硬 约束 是 一 些 线性 不 等 式 。 这 里 我 们 不 详细 阐述 这 些 
具体 的 技术 。 尽 管 这 些 技术 都 有 实际 应 用 ， 但 是 在 所 有 优化 问题 的 空间 内 还 是 适应 性 有 
R. 我们 只 说 明 一 些 通用 技术 ， 这 些 技术 允许 更 多 的 通用 目标 函数 。 然 而 ， 要 解决 的 问 
题 恰好 是 菜 些 具 体 算法 中 的 一 类 ， 那 么 用 这 些 具 体 的 技术 会 比 用 这 里 提 到 的 通用 技术 效 
果 更 好 。 

在 约束 优化 问题 中 ， 目 标 函 数 被 分 解 为 变量 子 集 的 函数 集 ， 称 为 软 约束 (soft con- 
straint)。 软 约束 为 每 个 变量 子 集 的 赋值 方案 分 配 一 个 成 本 。 赋 值 方 案 的 目标 函数 值 是 对 
于 给 定 软 约束 成 本 的 和 。 典 型 的 最 优化 标准 是 将 目标 函数 最 小 化 。 

与 硬 约束 一 样 ， 软 约束 是 一 个 变量 集 的 作用 域 (scope)。 软 约束 是 将 作用 域内 变量 的 
” 域 映 射 为 实数 的 一 个 函数 ， 称 之 为 评估 (evaluation)。 因 此 ， 对 于 作用 域内 变量 的 赋值 方 
案 ， 该 函数 返回 的 是 一 个 实数 值 。 

【 例 4-29) 同 例 4-8 — PÉ, 假设 必须 调度 一 组 配送 活动 。 但 是 不 同 于 硬 约束 ， 本 例 中 
在 配送 次 数 上 有 偏好 。 与 配送 次 数组 合 关联 的 成 本 就 是 本 例 中 的 软 约 束 。 这 说 明 在 本 例 中 
要 找到 一 个 最 小 成 本 和 的 配送 计划 。 

BEA, C, D, E 四 个 变量 的 域 都 是 {1，2}， 且 变量 B 的 域 为 {1，2，3}。 软 约束 
如 下 : 


C13 Cy: Cyt 


A 
1 
1 
1 
2 
2 
2 





ci 的 作用 域 是 {A，B}，ci 的 作用 域 是 4B，G)，s 的 作用 域 是 {B，D}。 假设 c 的 作 
用 域 是 {C，E}， cs 的 作用 域 是 {D，E}， 

在 一 个 软 约 束 中 对 一 些 变量 的 赋值 是 其 他 变量 的 一 个 函数 。 在 上 例 中 ,在 CA=1) 
是 也 的 一 个 函数 ， 当 B 二 2 时， 函数 评 全 为 2。 

给 定 一 个 全 赋值 ， 全 赋值 的 评估 值 就 是 应 用 了 该 全 赋值 的 软 约束 的 评估 值 加 和 。 一 
个 形式 化 的 方法 是 在 软 约 束 上 定义 操作 符 。 软 约 来 可 以 被 逐 点 添加 。 两 个 软 约 束 的 全 加 
是 将 这 两 个 约束 的 作用 域 范围 进行 并 操作 ， 又 加 的 后 的 评估 值 是 当前 赋值 下 两 个 函数 值 
的 和 。 


[144 | 


[145 | 
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【 例 4-30) 考虑 前 例 中 的 cs 和 cs BRM. ate 是 范围 为 {A，B，C} 的 函数 : 


cı Hep: 


A B 
1 1 
1 1 
1 2 





第 二 个 值 的 计算 如 下 : 
la Fez) (A=1,B=1,C=2) 
=¢, (A=1,B=1)+e(B=1,€=2) 
=5+2 
=7 < 

与 生成 -测试 算法 一 致 ， 寻 找 最 优 赋 值 的 一 种 方法 是 计算 软 约束 的 加 和 ， 选 择 一 个 具 
有 虽 小 值 的 赋值 方案 。 稍 后 将 介绍 其 他 更 有 效 的 最 优化 算法 。 

当 一 个 硬 约束 不 被 满足 时 ， 硬 约束 可 以 被 模型 化 为 产生 一 个 无 穷 大 的 成 本 a 只 要 一 个 
赋值 的 成 本 是 有 限 的 ， 那么 该 赋值 就 没有 违反 硬 约束 条 件 。 如 果 硬 约束 不 被 满足 时 不 用 无 
穷 大 的 成 本 ， 那 么 另 一 个 策略 是 将 成 本 设置 为 一 个 很 大 的 数 ， 数 要 比 软 约束 的 加 和 还 大 。 
那么 最 优化 就 可 以 看 成 是 一 个 寻找 解 的 过 程 ， 这 个 解 违反 了 最 少 的 硬 约束 ， 并 且 有 一 个 最 
小 的 成 本 。 

最 优化 问题 要 难于 约束 满足 问题 。 很 难 知 道 一 个 赋值 方案 是 不 是 最 优 的 。 在 CSP 问 
题 中 ， 算 法 可 以 判断 一 个 赋值 方案 是 不 是 一 个 满足 约束 的 解 。 而 在 最 优化 问题 中 只 能 通过 
和 其 他 赋值 方案 比较 来 判断 当前 赋值 方案 是 不 是 最 优 的 。 

许多 解决 硬 约束 的 方法 都 可 以 被 扩展 来 解决 最 优化 问题 ， 接 下 来 的 小 节 会 进行 
叙述 。 


4. 10. 1 最 优化 的 系统 方法 


弧 一 致 方法 可 以 通过 修剪 劣势 赋值 方案 从 而 被 泛 化 解决 最 优化 问题 。 假 设 c，…， cr 
是 含 变量 X 的 软 约束 。 设 软 约束 c 二 ci 十 … 十 cs。 设 Y 了 是 包含 在 约束 c 中 不 同 于 X 的 变量 。 
X 有 一 个 变量 值 ， 如 果 对 于 Y 的 所 有 变量 值 y，X 的 一 些 值 有 c(X=v， Y=y)<(X= 
v, Y=y), SPAR X 就 说 v 是 严格 被 支配 的 (strictly dominated) 。 修 剪 严格 被 支配 的 值 
不 会 导致 最 优 解 被 删除 。 可 通过 GAC 算法 的 重复 执行 对 域 进行 修剪 。 

被 弱 支 配 (weakly dominated) 与 严格 被 支配 的 定义 基本 相同 ,不 同 之 处 在 于 将 “小 
于 ”替换 为 “小 于 等 于 ”。 如 果 仅 需要 一 个 解 ， 那 么 被 弱 支 配 的 值 可 以 被 相继 删除 。 被 弱 
支配 的 值 的 籼 除 可 能 会 影响 到 寻找 最 优 解 的 过 程 ， 但 是 不 会 删除 最 优 解 。 从 绝 一 致 的 角 
度 来 看 硬 约束 ， 修 前 被 支配 的 值 (严格 的 或 弱 的 ) 可 以 大 大 简化 问题 , 但 是 它 本 身 并 不 能 
解决 问题 。 

域 分 割 法 可 以 用 来 构建 搜索 树 。 域 分 割 选择 一 些 变 量 X， 并 且 考 虑 变量 X 的 每 个 值 。 
RA X 一 个 值 使 得 包含 X 的 约束 被 简化 ， 且 其 他 变量 的 值 可 以 被 修剪 。 实 际 上 ， 修 剪 被 
弱 支配 的 值 意味 着 当 仅 有 一 个 变量 时 ， 变 量 的 最 佳 值 可 以 被 计算 出 来 。 重 复 域 分 割 过 程 建 
立 一 个 搜索 树 ， 如 图 1 所 示 ， 但 是 叶子 是 评估 值 。 像 A ”和 分 支 定 界 这 样 的 搜索 算法 通 
过 分 配 确定 的 成 本 就 可 以 找到 一 个 最 优 值 。 
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域 分 割 可 以 通过 两 种 技术 进行 改进 。 第 一 种 ， 在 变量 X 的 分 割 下 ， 对 于 另外 一 个 赋 
值 不 取决 于 X 的 变量 ， 那 么 在 有 X 变量 值 的 子 树 中 可 以 共享 男 一 变量 的 计算 ， 这 个 值 仅 
需 计 算 一 次 ， 可 以 缓存 起 来 。 第 二 种 ， 如 果 对 一 个 变量 集 的 删除 使 得 图 形 被 拆 分 ， 那 么 被 
拆 分 的 部 分 在 变量 赋值 时 可 以 单独 被 解决 。 

变量 消除 (Variable elimination) 是 域 分 割 法 的 一 种 动态 规划 变形 。 变 量 在 某 一 时 刻 
被 删除 ， 一 个 变量 X 被 删除 的 过 程 如 下 : w REBELE X 的 约束 集合 。 工 是 一 个 新 
约束 ， 该 约束 的 作用 域 是 RR 中 约束 作用 域 的 并 ， WE R 中 值 的 和 。 设 V= scope(T) \ 
(X). HV 中 每 个 变量 的 值 ， 选 择 X 中 的 一 个 值 来 最 小 化 T， 产 生 一 个 新 的 约束 N，N 
的 作用 域 为 V。 约 束 N RET R 中 的 约束 。 这 就 产生 了 一 个 具有 更 少 变 量 和 新 约束 集 
的 新 间 题 ， 该 问题 可 以 被 递归 地 解决 。 约 简 问 题 的 一 个 解 S 是 V 中 变量 的 一 个 赋值 方 
案 。 因 此 ，T(S) 是 X 的 一 个 函数 (赋值 S 下 的 约束 T)。X 的 最 优 值 则 是 使 TSAR) 
值 的 值 。 

图 4-11 给 出 VE 算法 的 伪 代 码 。 消 除 顺 序 可 以 被 先 验 地 或 者 即时 地 计算 ， 例 如 ， 使 用 
在 CSP VE 中 的 启发 式 消除 顺序 。 这 个 实施 过 程 可 以 不 用 存储 工 ， 仅 通过 对 N 构建 一 种 扩 
展 的 表述 。 


1; procedure VE_SC(V;,. Fs) 

Inputs 
Vs: 变量 集合 
Fs: 约束 集合 

Output 
对 于 Vs 的 最 佳 赋值 

if Vs 包含 一 个 单独 元 素 或 者 FEs 包含 一 个 单独 的 约束 then 
令 下 是 下 中 约束 的 加 和 
return F 中 最 小 值 的 赋值 方案 

else 
根据 一 些 消除 顺序 选择 X，XEVs 
R={FEFs: BWRX WF) 
A THR 中 约束 的 加 和 
N :=minxT 
S:=VE _SC(Vs\{X}, Fs \ RU(N}) 
Ko arg minyT(S) 
return SU {X=X,,,} 





图 4-11 具有 软 约 束 的 最 优化 变量 消除 


【 例 4-31) 考虑 例 4-29。 首 先 考虑 消除 变量 A。A 仅 出 现在 约束 ci(A，B) 。 
消除 A Aik cs CB) =arg minaci (A, B): 


约束 ca (A, B) BE cs (BYR. 
假设 B 接 下 来 将 被 消除 。 B 出 现在 三 个 约束 中 cz(CB， C), c (B, D) FN ca (B). sr 
个 约束 相 加 co(B, C)+c;(B, D) +c: (B): 


[148] 
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Co. C3 和 cs 这 三 个 约束 被 替换 为 é CG D)=min, Ce. (B, C)+c,(B. D)+c,;(B)): 





现在 仍然 有 三 个 约束 : a (C, ED. lD, E), c&C, D, 这些 被 递归 优化 。 假 设 返 
回 一 个 解 C=1, D=2, E=2, MAME c C.B，C=1) 十 cs(B，D= 二 2) 十 cs(B) 最 小 的 值 为 
B=2, 

Mo (A, B) Pg ae (A, B=) RhA A=1. Bik. men Mi: A 二 1， 
B= C=1, DA E=2. 4 

算法 VE 因为 是 用 硬 约 束 执行 的 ， 所 以 复杂 度 取决 于 约束 图 的 结构 。 在 算法 VE, 
也 包括 算法 VESC, 稀 玖 图 可 能 会 产生 一 个 很 小 的 中 间 和 约束 。 连 接 紧 密 的 图 会 产生 繁多 
的 中 间 约 束 。 


4.10.2 局 部 搜索 最 优化 


局 部 搜索 方法 可 以 直接 应 用 到 最 优化 问题 中 ， 用 最 优化 问题 中 的 目标 函数 作为 局 部 搜 
索 的 评估 函数 。 算 法 在 确定 的 时 间 内 执行 (为 利用 搜索 空间 的 其 余部 分 ， 也 可 能 使 用 随机 
重启 的 方法 )， 在 这 个 时 间 内 算法 一 直 寻 找 最 佳 赋值 ， 并 且 返 回 这 个 赋值 作为 答案 。 

最 优化 的 局 部 搜索 有 一 个 额外 的 复杂 情况 ， 它 的 结果 不 能 仅仅 来 源 于 硬 约 束 ， 因 为 很 
难 判断 一 个 全 赋值 是 不 是 最 佳 可 能 解 。 根 据 最 优化 标准 ， 一 个 局 部 最 小 值 Clocal mini- 
mum) 至 少 和 它 的 邻居 一 样 小 。 一 个 全 局 最 小 值 (global minimaum) 是 至 少 和 所 有 其 他 全 赋 
值 一 样 小 。 如 果 对 其 他 的 赋值 没有 系统 的 搜索 ， 算 法 可 能 不 知道 目前 找到 的 最 佳 赋值 是 不 
是 全 局 最 优 ， 也 不 知道 在 搜索 空间 的 另 一 部 分 是 不 是 存在 一 个 更 好 的 解 。 

当 同 时 具有 软 、 硬 约束 时 ， 解决 约束 优化 问题 将 成 为 在 违反 硬 约束 和 使 评估 函数 更 差 
之 间 的 一 个 权衡 。 当 违反 硬 约束 时 ， 不 会 把 成 本 看 作 是 无 限 的 ， 因 为 那样 的 话 算法 将 区 分 
不 出 是 违反 了 一 个 硬 约 束 还 是 违反 了 多 个 硬 约 束 。 在 搜索 的 过 程 中 ， 有 时 允许 临时 违反 硬 
约束 也 不 失 为 一 种 好 的 办 法 。 

连续 域 

对 于 域 为 连续 值 的 最 优化 问题 ， 局 部 搜索 将 变 得 更 为 复杂 。 这 主要 是 因为 一 个 赋值 方 
案 的 邻居 节点 会 很 不 清晰 。 结 果 同 样 不 能 仅仅 依赖 于 硬 约束 ， 因 为 这 些 硬 约束 往往 将 空间 
离散 化 。 
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对 于 最 优化 问题 ， 梯 度 下 降 (gradient descent) 法 被 用 来 寻找 最 小 值 ， 梯 度 上 升 (gradi- 
ent ascent) 法 被 用 来 寻找 最 大 值 。 梯 度 下 降 法 像 一 个 游 走 在 下 坡 的 过 程 ， 并且 总 是 彰 着 尽 
量 向 下 的 方向 移动 。 寻 找 一 个 赋值 方案 的 邻居 的 通用 方法 是 按照 评估 函数 的 斜率 成 比例 
地 向 下 坡 移动 。 因 此 ， 梯度 下 降 法 在 每 个 方向 上 成 比例 地 移动 ， 这 个 比例 是 该 方向 偏 导数 
的 负数 。 

一 个 方向 上 上， 如果 X 是 一 个 实 值 变量 ， 当 前 值 为 w， 那 么 下 一 次 的 值 应 该 是 

dh 
v—9x ()@ 
° 7 是 步 长 (step size)， 是 一 个 比例 常数 ， 这 个 步 长 决定 了 梯度 下 降 法 以 多 快 的 速 
度 达 到 最 小 值 。 如 果 cw 太 大 ， 则 容易 迈 过 最 小 值 ; MR ww 太 小 ， 则 程序 将 非 
常 耗 时 。 


全 是 六 关于 X 的 导数 ， 是 关于 的 一 个 函数 ， 被 X=v IER, 


【 例 4-32] 4-12 给 出 了 用 单 维 函数 找到 局 部 最 小 值 的 一 维 实例 。 开 始 于 位 置 1。 导 
数 是 一 个 较 大 的 正 值 ， 所 以 移动 到 位 置 2。 这 时 导数 变 为 近似 为 零 的 负 值 选择 较 小 的 移 
动 到 位 置 3。 到 位 置 3 导数 为 接近 零 的 负 值 ， 所 以 向 右 更 小 的 移动 。 也 就 是 说 ， 当 寻找 到 
局 部 最 小 值 时 ， 斜 率 接近 零 ， 采 用 更 小 的 移动 。 < 
对 于 多 维 的 最 优化 问题 ， 当 有 多 个 变量 时 ， 梯度 
下 降 法 将 为 在 每 一 维 偏 导 数 的 基础 上 做 该 维 的 成 比例 
运动 。 如 果 (X ，…，X,) 是 必须 被 赋值 的 变量 ， 一 个 
赋值 方案 对 应 了 一 个 值 为 《wv es wD HITCH, EFE 
估 函 数 疡 是 可 微 的 ， 赋值 (wm » tet v,) 的 下 一 个 邻居 需 
要 对 每 一 方向 都 成 比例 地 移动 来 获取 ， 这 个 比例 是 该 
方向 上 4 的 斜率 。 新 的 XX; 的 值 是 





1X (BE) Cor eeso) 7 = 4 1 
图 4-12 
EPK. AIR CE X, = X, 的 函数 。 es i i 
将 它 应 用 到 点 (vi， ry Len eee n 
(es owe m) = lim SO utes o io Vrs Uy) 


ox, 
WR A AY Da ST DA Be A TTT E 那么 就 将 它 解析 如 果 不 能 解析 计算 ， 那么 就 用 一 
很 小 的 值 s。 
梯度 下 降 法 经 常 被 用 到 参数 学 习 ， 在 参数 学 习 中 有 可 能 存在 成 千 上 万 的 实 值 参数 需要 
被 优化 。 该 方法 的 许多 变形 这 里 就 不 进行 介绍 了 。 例 如 ， 不 用 常数 的 步 长 ， 算 法 用 一 
元 搜索 来 决定 局 部 最 优 的 步 长 。 


4. 11 KENA 


。 在 Agent 解决 实际 问题 的 过 程 中 ， 应 用 描述 状态 的 特征 集 进行 推理 的 方法 要 比 根据 状态 显 式 推 理 
的 方法 更 为 有 效 。 

。 许多 问题 可 以 用 一 个 变量 集合 表示 ， 并 且 存 在 与 该 集合 对 应 的 特征 集 、 变 量 可 能 取 值 所 组 成 的 
域 ， 以 及 硬 和 /或 软 约 束 集合 。 问 题 的 解 是 为 每 个 变量 赋值 的 一 种 赋值 方案 ， 该 赋值 方案 被 要 求 
满足 硬 约束 集合 或 者 最 优化 一 些 函数 。 
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* 弧 一 致 方法 和 搜索 方法 经 常 被 结合 使 用 ， 用 来 寻找 满足 约束 条 件 的 赋值 方案 ， 或 者 表示 问题 无 解 。 

*。 随机 局 部 搜索 用 于 寻找 满足 约束 条 件 的 赋值 方案 , 但 是 不 能 确定 问题 是 否 无 解 。 算 法 在 每 次 改进 
所 消耗 的 时 间 和 每 次 移动 所 改进 的 值 之 间 做 出 权衡 来 保证 算法 的 有 效 性 。 这 其 中 还 必须 要 使 用 一 
些 策略 来 保证 算法 能 够 跳出 非 解 的 局 部 最 优 值 。 

。 当 约 束 图 是 稀 玖 图 时 ， 可 以 采用 系统 化 的 方法 进行 最 优化 。 这 种 情况 也 可 以 使 用 局 部 搜索 的 方 
法 ,但 是 该 方法 所 带 来 的 问题 是 无 法 确认 当前 的 搜索 是 否 正 处 于 全 局 最 优 。 


4. 12 参考 文献 及 进一步 阅读 


1977 年， 由 Mackworth 提出 了 广义 弧 一 致 (GAC) 算 法 。2003 年 Dechter 讨论 了 约束 满 是 技术 ，2006 
年 Freuder 和 Mackworth 做 了 类 似 工 作 ， 

时 在 1962 4£, Davis, Logemann 利 Loveland 三 人 就 联合 提出 了 DPLL AR. 

和 针对 命题 满足 问题 的 变量 消除 (VE) 方 法 是 由 Davis 和 Putnam 在 1960 年 提 测 的 。 而 最 优化 理论 变量 
消除 (V 王 ) 可 以 称 为 非 序列 动态 规划 (non-serial dynamic programming), ' 该 方法 是 由 Bertelé 和 Brioschi 在 
1972 年 共 间 提出 。 

随机 局 部 搜索 方法 在 2003 年 和 2004 年 分 别 由 Spall 和 Hoos. Stitzle 给 出 相应 的 描述 。Minton、 
Johnston, Philips 和 Laird 在 1992 年 提出 了 最 小 冲突 启发 式 方法 ， 基 于 该 方法 衍生 出 了 任意 冲突 启发 式 
方法 。 经 典 的 模拟 退火 算法 是 由 Kirkpatrick, Gelatt 和 Vecchi 在 1983 年 提出 的 。 

遗传 算法 是 由 Holland 在 1975 年 率先 提出 。 有 关 遗 传 算 法 的 文献 有 许 和 多， 相关 文 献 可 以 查询 Gold- 
berg[L1989] ，Koza[L1992]，Mitchell[1996J。Bick[1996]，WhitleyL2001] 和 Goldberg[2002] 的 相应 工作 . 


4.13 习题 


4.1 在 图 4-13 的 填 字 游戏 中 ， 必 须 找 出 6 个 包含 3 个 字母 的 单词 : 3 个 横向 阅读 的 单词 (Al1、A2、A3)， 
3 个 纵向 阅读 的 单词 (D1、D2、D3)。 必 须 从 右 侧 显示 的 40 个 单词 列表 中 选择 每 个 单词 。 首先 ; 尝 
试用 直觉 来 填写 ; 然后 用 先 域 一 致 后 弧 一 致 的 方法 来 解决 。 

至 少 存在 两 种 方式 将 图 4-13 中 的 填 字 游戏 表达 






Al,Di | D2 
i 单词 表 : 
第 一 种 表达 方式 是 将 词 的 位 置 (A1，A2，A3、 ail,aim,air.and,any, 
fi, 7 4 ape,apt.arc,are,ark, 
D1，D2，D3) 作 为 变量 ， 词 的 集合 作为 变量 的 可 能 | aon 
取 值 。 约 东 条 件 则 为 单词 交叉 位 置 的 字母 必须 ee 
相同 。 ban,bat,bee,boa,ear, 
第 二 种 表达 方式 是 将 九 个 方 格 作为 变量 。 字 和 母 人 


表 的 字母 集合 {a， 5，*…，z) 则 为 变量 的 域 。 约 束 
则 为 相应 位 置 上 的 字母 必须 构成 单词 表 里 面 的 单 图 4-13 由 6 个 单词 完成 的 填 字 游戏 
i. 例如 ， 左 上方 的 方 格 和 中 间 最 上 方 的 方 格 不 能 
同时 到 a 值 。 因 为 在 侧 单词 表 内 没有 aa 开头 的 单词 。 
(a) 根据 第 一 种 表达 ， 请 给 出 使 用 域 一 致 方法 进行 约 简 的 例子 ( 若 存在 ) 。 
(b) 根据 第 一 种 表达 ， 请 给 出 使 用 弧 一 致 方法 进行 约 简 的 例子 (车 存在 )。 
(c) 根据 第 一 种 表达 ， 使 用 域 一 致 加 弧 一 致 的 方法 是 否 足以 解决 这 个 问题 ， 请 给 出 相应 解释 。 
(d) 根据 第 二 种 表达 ， 请 给 出 使 用 域 一 致 方法 进行 约 简 的 例子 ( 若 存 在 ) 。 
(e) 根据 第 二 种 表达 ， 请 给 出 使 用 弧 一 致 方法 进行 约 简 的 例子 (车 存在 )。 
() 根据 第 二 种 表达 ， 使 用 域 一 致 加 弧 一 至 的 方法 是 否 足以 解决 这 个 问题 ， 请 给 出 相应 解释 。 
(g) 基于 一 致 性 技术 ， 哪 种 表达 可 以 使 问题 更 有 效 地 被 解决 ? 在 答案 中 给 出 证 明 。 
4.2 假设 存在 一 个 关系 N, W) KAREAR W 中 的 第 NN 个 字母 是 元 音 (a，e; i, o, u 中 的 一 个 ) 
HAH. fA, v2, ca) WHH, AW cat 中 的 第 二 个 字母 *a” 为 元 音 。v(3，cat) 为 假 ， AN cat 中 
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的 第 三 个 字母 “t”" 不 是 元 音 。v(5，cat) 为 假 ， 因 为 cat 中 不 存在 第 五 个 字母 ， 

假设 N 的 域 是 和，3， 5), W 的 域 是 {added， blue, fever, green, stare}. 

(a) IN. vw) 是 否 为 弧 一 致 ? 若是 ， 请 给 出 原因 。 若 不 是 ， 请 指出 从 
域 中 删除 哪些 元 素 可 以 使 其 形成 弧 一 致 。 

b) IW, 是 否 为 弧 一 致 ? 若是， 请 给 出 原因 。 若 不 是 ， 请 指出 从 
域 中 删除 哪些 元 素 可 以 使 其 形成 弧 一 致 。 

4.3 在 图 4-14 的 填 字 游戏 中 ， 可 以 被 使 用 的 间 词 有 : 
at, eta, be, hat, he, her, it, him, on. one, desk, dance, usage, 
easy, dove, first, else, loses, fuels, help, baste, given, kind, 


sense, soon, sound, this, think, 





(a) 给 出 用 节点 位 置 (1- 横 向 ，2- 纵 向 等 ) 和 单词 域 的 表达 ， 并 具体 说 明 
在 域 一 致 和 弧 一 致 操作 后 的 网 络 。 
O 考虑 对 倘 表 达 方 式 ， 单 词 的 交叉 位 置 为 变量 ， 这 些 变量 的 域 是 能 放置 
在 交叉 位 置 的 字母 。 给 出 在 弧 一 致 方法 构造 网 络 后 的 变量 域 。 在 这 种 
表达 方式 下 ,使 用 缴 一 致 方法 后 得 到 的 结果 是 否 对 应 了 (a) 中 的 网 络 。 Be 由 7 个 单词 完成 
Co) 基于 (a) 中 弧 一 致 操作 后 得 到 的 网 络 。 给 出 使 用 变量 消除 法 解决 该 iii 
填 字 游戏 的 过 程 。 
(d) 不 同 的 消除 顺序 是 否 影 响 效 率 ? 请 给 出 相应 解释 。 

4.4 使 用 局 部 随机 搜索 解决 习题 4.3 中 的 问题 。 基 于 弧 一 致 网 络 ， 可 以 使 用 “随机 局 部 搜索 "AIspace: 

org 中 的 小 程序 来 解决 问题 。 

(a) 随机 游 走 的 方法 效果 如 何 ? 

Cb) 息 山 算法 的 效果 如 何 ? 

Co) 组 合 的 方法 效果 如 何 ? 

Cd) 给 出 参数 集合 的 设置 使 得 效果 最 佳 。 

45 ”一 个 调度 问题 中 包含 5 个 活动 ， 这 5 个 活动 需要 被 安排 在 4 个 时 间 段 上 。 BRA, B, C, D, EX 
表示 活动 的 变量 ， 变 量 的 域 为 {1，2，3，4)， 且 约束 为 A>D, D>E, CHA, C>E, CAD, BS 
A, BAC AMC#D+1, 

( 先 用 直觉 尝试 着 给 出 一 种 合理 的 调度 安排 。) 
(a) 给 出 用 回潮 法 解决 该 问题 的 过 程 。 画 出 生成 的 搜索 树 并 找到 所 有 和 解 。 给 出 清晰 的 调度 方案 ， 并 
且 确 保 选 择 了 一 个 合理 的 变量 顺序 。 
为 了 给 出 搜索 树 ， 将 它 以 文本 的 形式 写 出 ， 该 搜索 树 的 每 一 个 分 支 占 一 行 。 例 如 ,假设 变量 
X., Y, Zam. fe HAR XeY，Y 天 2Z。 对 应 的 搜索 树 可 以 以 如 下 方式 写 出 : 
X=t Y=t failure 
Y=f Z=t solution 
Z=f failure 
X=f Y=t Z=t failure 
Z=f solution 
Y=f failure 
GER: 对 于 一 个 具体 问题 来 说 ， 写 一 个 程序 来 生成 搜索 树 比 手动 可 能 要 更 容易 些 .) 
(b) 给 出 用 弧 一 致 法 解决 该 问题 的 过 程 。 必 须 完 成 以 下 操作 : 154 


。 画 出 约束 图 ; 
。 给 出 每 步 删 除 域 中 元 素 的 过 程 ， 以 及 在 删除 元 素 的 过 程 中 涉及 了 哪些 弧 ; 
。 在 弧 一 致 结束 后 给 出 精确 的 约束 图 ; 
。 给 出 使 用 分 割 域 方法 解决 该 问题 的 过 程 。 
4.6 考虑 哪些 方法 可 以 做 到 以 下 的 要 求 : 
(a) 如 果 不 存在 模型 ， 能 判断 出 没有 模型 。 
(b) 如 果 存 在 一 个 模型 ， 能 找到 这 个 模型 。 
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Cc) 确保 找到 所 有 模型 。 
方法 如 下 : 
i) 使 用 域 分 割 的 弧 一 致 。. 
ii) 变量 消除 。 
iii) 随机 局 部 搜索 。 
iv) 遗传 算法 。 
基于 域 分 割 的 弧 一 致 方法 能 返回 不 仅仅 是 一 个 而 是 所 有 模型 ， 解释 工作 流程 ， 并 给 出 算法 。 
变量 消除 法 能 返回 一 个 而 不 是 所 有 模型 .解释 工作 流程 ， 如 何 比 找到 全 部 模型 更 容易 地 找到 一 个 模 
型 ， 并 给 出 算法 。 
解释 基于 域 分 割 的 弧 一 致 方法 是 如 何 计算 模型 的 数量 的 。 
解释 基于 变量 消除 的 弧 一 致 方法 是 如 何不 使 用 枚 举 方法 而 计算 模型 数量 的 。( 提 示 : 不 需要 逆向 
推理 ,但 是 可 以 向 前 推导 解 的 数量 ,) 
思考 图 415 中 二 元 约束 的 约束 图 (例如 ,ri 是 A 和 B 的 关系 ,可 以 
写 (A，B))， 用 变量 消除 法 解决 这 个 网 络 ， 
(a) 假设 要 消除 变量 A， 哪 些 约束 被 删除 ? 在 哪些 变量 上 又 被 创建 
了 一 个 新 约束 (可 以 称 之 为 ry)? 
(b) 假设 随后 要 消除 变量 B( 例 如 ， 在 消除 A 之 后 )， 鄂 些 关 系 将 被 
移 除 ? 在 哪些 变量 上 又 被 创建 了 一 个 新 约束 ? 
将 密码 算术 问题 SEND+ MORE= MONEY 作为 约 东 满足 问题 提出 
并 解决 。 在 密码 算术 问题 中 ， 每 个 字母 都 用 一 个 不 相同 的 数字 表示 ， 
最 左边 的 数字 不 能 为 0( 因 为 这 将 是 不 存在 的 )， 且 对 应 的 字母 序列 是 
一 个 十 进 制 的 数 ， 其 和 必须 是 正确 的 。 在 本 例 中 , Y=(D+E) mod 
10, HE=(N+R+(CD+ E) +10 )) mod 10， 等 等 。 





4-15 抽象 的 约束 网 络 
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命题 和 推理 





当 我 遇 到 一 个 错误 的 定理 时 ， 我 不 需要 对 其 进行 考察 或 论证 ， 因 为 我 可 以 通过 一 个 简 
单 的 实验 来 发 现 其 事实 中 的 错误 ， 即 通过 对 实例 的 计算 ， 就 可 以 轻而易举 地 发 现 其 中 的 
错误 。 

如 果 有 人 怀疑 我 的 结论 ， 我 就 会 对 他 说 “让 我 们 来 计算 一 下 ?”， 然 后 付 诸 于 芜 端 ， 我 们 
很 快 就 会 解决 问题 。 

一 一 Gottfried Wilhelm Leibniz| 1677] 


本 章 着 重 介绍 简单 形式 知识 库 的 相关 理论 ， 这 种 知识 库 阐 述 某 个 环境 中 的 事实 。 
Agent 可 以 观察 并 使 用 该 知识 库 的 内 容 ， 从 而 确定 该 环境 中 的 其 他 事实 。 在 一 个 给 定 的 知 
识 库 中 ， 当 Agent 询问 何 为 真 时 ， 知 识 库 不 必 枚 举 可 能 世界 就 可 以 回答 ， 其 至 可 以 产生 所 
有 的 可 能 世界 。 本 章 介 绍 了 使 用 命题 进行 的 形式 化 推理 。 各 种 形式 化 推理 的 不 同 之 处 在 于 
证 明了 什么 ， 什 么 样 的 背景 知识 必须 被 提供 ， 以 及 Agent 在 线 上 获取 的 观察 是 怎样 被 操 
作 的 。 


5.1 命题 


约束 作为 变量 合理 赋值 的 表 ， 具 体 编 写 时 并 不 是 非常 直观 ， 很 难看 出 这 些 表 中 所 示 的 
内 容 。 而 且 对 知识 库 进 行 调试 也 是 一 件 很 困难 的 事情 ， 一 点 小 的 变化 都 会 引起 表 中 内 容 很 
大 的 改变 。 通 常 编写 约束 的 方法 是 以 命题 的 形式 进行 的 。 

对 于 使 用 命题 表示 约束 和 查询 有 如 下 原因 : 

。 对 于 变量 间 关 系 的 表示 使 用 逻辑 声明 比 使 用 具体 的 表达 要 更 简洁 、 易 读 。 

。 通过 这 种 方式 查询 Agent 得 到 的 回答 要 比 对 单个 变量 赋值 得 到 的 更 为 丰富 。 

。 该 语言 将 在 第 12 章 中 被 扩展 以 对 个 体 和 关系 进行 推理 。 

首先 给 出 称 为 命题 演算 (propositional calculus) 语 言 的 语法 和 语义 。 


5. 1. 1 命题 演算 的 语法 


命题 (proposition) 是 判断 真 假 的 语句 ， 在 某 一 个 世界 中 其 有 一 定 的 真 值 (如 盐 或 者 
假 ) 。 命 题 是 通过 原子 命题 的 逻辑 连接 建立 起 来 的 。 

原子 命题 (atomic Pioposition)， 或 称 为 原子 Catom)， 是 使 用 一 个 小 写字 母 开 始 的 符号 
表示 。 直 观 地 说 ， 原 子 是 有 真 假 值 的 事物 。 

Plan, AT REA A BRM Cai_is_fun), SEL (Uit_4)、 住 在 外 面 (live_outside) 和 阳 
光 (sunny)， 都 可 以 称 作 原子 命题 。 

从 前 面 提 到 的 代数 变量 的 角度 看 ,原子 可 以 看 做 是 有 一 个 特定 值 或 者 一 组 值 的 声明 ， 
例如 ， 命 题 classtimeA fter3 可 以 意味 着 ClassTime>3, Hl “4484 ClassTime 值 大 于 3 时 ， 
该 命题 为 真 ， 否则 为 假 。 传 统 的 命题 演算 不 会 将 变量 显 式 地 描述 ， 本 书 也 遵循 这 一 传统 。 
我 们 知道 ， 对 于 布尔 变量 (Boolean variable) 存 在 着 一 个 直接 的 事实 ， 即 命题 不 为 真 即 为 
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假 。 赋 值 X=true 写成 命题 +z， 这 里 使 用 了 小 写 的 变量 名 。 因 此 ， 命题 happy 就 意味 着 存 
在 一 个 名 为 Happy 的 布尔 变量 ， 其 中 happy 意味 着 Happy=true. 
命题 也 可 以 通过 逻辑 连接 词 连接 简单 命题 组 成 。 因 此 命题 是 下 述 两 者 之 一 ， 
。 一 个 原子 命题 。 
。 一 个 复合 命题 (compound proposition)， 如 下 面 几 种 形式 : 
= pGEVEAE p) 是 p WE (negation) 
p NIGRE p Al g)—— EE p Fl g HAM conjunction) 
DV aG p ka) EÈ p Hg M#TM disjunction) 
pq( 读 作 p AR EA p Ag Cimplication) q 








p<-q( 读 作 如 果 g 那么 p) 是 从 q BZ p 
peg GEE“ SENSo R > StF”) 
其 中 性 和 都 是 命题 。 


复合 命题 操作 符 的 优先 级 按照 上 述 顺序 排列 。 因 此 ， 我 们 可 以 按 上 面 的 顺序 ， 使 用 对 
复合 命题 加 上 括号 的 方法 消除 复合 命题 的 歧义 ， 例 如 : 

"aVbAc>dA 7eV f 
是 下 面 命题 的 缩写 

(ra VbAO)-CdA (7a) P) 


5.1.2 命题 演算 的 语义 


语义 (semantic) 是 指 语言 符号 与 现实 世界 事物 的 对 应 。 可 以 用 语义 理解 语言 中 句子 的 
含义 。 命 题 演 算 的 语义 定义 如 下 : 

解释 (interpretation) 由 映射 函数 x BAAR, BRAY pa a xx 是 将 原子 命题 映射 到 {true， 
false} 的 函数 。 如 果 rla) 一 true， 则 我 们 说 在 该 解释 中 原子 命题 a 为 真 ， 或 说 该 解释 将 
true Fa., WR x(a) 二 false， 我 们 称 在 该 解释 中 a 为 假 。 有 了 时 可 以 认为 x 是 一 组 映射 为 
真 的 原子 ， 而 其 他 的 原子 则 映射 为 假 。 

解释 将 每 个 命题 映射 为 一 个 真 值 (truth value)。 在 解释 中 每 个 命题 可 能 是 真 命题 也 可 
能 是 假 命题 。 如 果 x(a) 二 true， 则 原子 命题 a 在 该 解释 中 为 真 ， 否 则 在 该 解释 中 为 假 。 复 
合 命题 的 真 值 可 以 使 用 真 值 (图 5-1) 进 行 判 断 。 











图 5-1 定义”、A、V、=<、 一 和 二 的 真 值 表 


注意 ， 我们 只 谈论 在 某 种 解释 中 的 真 值 。 同 一 命题 在 不 同 的 解释 中 可 能 会 有 不 同 的 “ 
真 值 。 

【 例 5-1〗 假设 有 三 个 原子 命题 : 人工 智能 是 有 趣 的 (ai_is_fun)， RA (happy), A 
亮 灯 (light_on)。 

假设 解释 五 中 : ai_is_fun HH, happy 为 假 ，light_on 为 真 。 也 就 是 说 ,I 映射 的 
函数 m (ai_is_fun)=true, m(happy)= false, m (light_on)=true, BA 
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。 在 五 # ai_is_fun HH. 

*。， Æ TI, Po ai_is_fun A. 

。 Æ h P happy 为 假 。 

。 在 石 中 一 happy AR. 

。 ÆI 1 ai_is_funV happy AH. 

° ÆI "f ai_is_fun<happy AH. 

"” €h Ħ happy~ai_is_fun 为 假 。 

。 ÆI P ai_is_fun~happy/ light_on ABH. 

假设 解释 五 中 ai_is_fun HBs happy HH, light_on 为 假 。 

。 Æl aiis_fun HB. 

。 #6 I, A} ai_is_fun HB. 

* 在 I 中 happy HA. 

* f£ 1, happy AR. 

。 Æl A ai_is_funV happy AH. 

。 Æl 1 ai_is_fun<happy RB. 

。 ÆI, 1 ai_is_fun<light_on HE. 

© ÆI P ai_is_fun<-happy \ light_on AH. a 

ARE (knowledge base) 是 令 Agent 为 真 的 一 组 命题 的 集合 ， 知 识 库 的 元 素 是 公理 
(axiom). 

一 组 命题 的 模型 (model) 是 该 组 命题 都 为 真 的 一 个 解释 。 . 

如 果 KB 是 一 个 知识 库 ，g 是 一 个 命题 ， 称 g 是 KB 的 一 个 逻辑 结论 (logical conse- 
quence), WR g 在 每 个 KB 的 模型 中 都 为 真 ， 记 作 

KBFg 

也 就 是 说 ， 不 存在 KB 为 真 、g 为 假 的 解释 。 若 在 一 个 解释 中 KBAR, BARBRA 
论 的 定义 将 不 会 限制 g 的 真 值 。 

如 果 KBFg， 我 们 也 说 g 从 KB 逻辑 推出 (logically follow), 或 者 说 KB 制约 (entail)g。 

【 例 5-2〗 假设 KB 是 下 述 知 识 库 ;: 

Sam 是 快乐 的 (sam _is_happy)。 

人 工 智 能 是 有 趣 的 (ai_is_fun)。 

虫子 生活 在 地 下 (tworms_live_underground)。 

夜晚 (night_time)。 

Ay 3, 0 EE (bird_eats_apple). 

hy Fy 55 SE BAB A SE A RE (apple_is_eaten<bird_eats_apple). 

如 果 Sam Æ AAE A EAC BE ANENA H Cswitch_1_is_up<-sam_is_in_room \ night_time) 。 

给 定 以 上 的 知识 库 ， 则 : 

KBE bird _eats_apple 

KB apple_is_eaten 

因为 存在 着 使 switch_1_is_ up 为 假 的 知识 库 模型 ， 所 以 KB 不 制约 switch _1_is_up iX 
样 的 命题 。 注 意 在 这 样 的 解释 中 sam_is_in_room 必定 为 假 。 < [160 

1、 人 类 角度 的 语义 观 

通过 之 前 对 语义 的 描述 ， 我 们 并 不 知道 语义 的 作用 ， 也 不 知道 如 何 用 语义 作为 基础 信 
息 来 构造 智能 系统 。 我 们 知道 的 是 ， 使 用 逻辑 背后 的 基本 思想 是 当知 识 库 的 设计 者 需要 实 
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例 化 一 个 特别 的 世界 时 ， 设计 者 可 以 选择 这 个 忆 界 作为 一 种 预期 解释 (intended interpreta- 
tion)， 可 以 选择 关于 这 个 世界 的 符号 的 意义 ,， 并且 可 以 写 出 世界 中 为 真 的 命题 。 当 系统 计 
算出 该 知识 库 的 逻辑 结果 时 ， 设计 人 员 可 以 根据 该 预期 解释 来 解释 答案 。 设 计 人 员 可 以 与 
其 他 设计 人 员 和 用 户 交流 上 述 的 意义 ， 以 便于 他 们 也 能 根据 符号 的 含义 解释 答案 。 

逻辑 更 含 “KBFs "是 一 组 命题 (KB) 和 它 蕴 含 的 命题 g 之 间 的 语义 关系 。KB 和 g 都 
是 符号 ,而且 可 以 在 计算 机 中 表示 。 这 些 符 号 可 以 参照 真实 世界 的 命名 方式 进行 命名 ， 但 
不 用 考虑 真实 世界 中 的 语义 。FF 关 系 是 不 用 计算 或 证 明 的 ， 它 只 是 提供 了 当 一 些 声明 为 真 
的 时 候 ， 接 下 来 会 跟随 些 什么 。 

知识 库 设 计 者 表达 世界 时 用 到 的 方法 如 下 所 述 : 

第 一 步 : 知识 库 设 计 者 选择 任务 域 或 世界 进行 表示 ， 这些 表示 应 该 是 具有 预期 解释 
的 。 这 可 以 是 现实 世界 某 个 方面 的 解释 (例如 一 所 大 学 的 课程 和 学 生 的 结构 ， 或 在 某 特定 
时 刻 的 实验 室 环境 )， 也 可 以 是 某 个 虚构 世界 的 解释 (如 爱丽 丝 梦 游 的 仙境 ,或 一 个 开关 和 置 
下 后 的 电气 环境 )， 或 者 是 一 个 抽象 世界 的 解释 (例如 数 和 集合 的 世界 )。 设 计 者 还 必须 选 
择 其 关注 的 命题 。 

第 二 步 : 为 了 表达 该 世界 中 的 某 些 方面 ， 知 识 库 设 计 者 需要 选择 一 些 原子 命题 。 每 个 
原子 命题 都 关于 该 预期 解释 具有 确切 的 意义 。 

第 三 步 : 知识 库 设 计 者 告诉 (tell) 系统 哪些 命题 在 该 预期 解释 中 为 真 。 这 经 常 被 称 为 
使 领域 公理 化 (axiomatizing)， 其 中 给 定 的 命题 是 领域 的 公理 (axiom)。 

第 四 步 : 知识 库 设计 者 现在 可 以 询问 (ask) 有 关 预 期 解释 的 问题 ， 系 统 能 回答 这 些 问 
题 。 设 计 人 员 能 够 使 用 赋予 符号 的 意义 来 解释 答案 。 

使 用 这 种 方法 ， 一 直到 第 三 步 时 设计 者 才 实 际 上 告诉 计算 机 一 些 信息 。 前 两 步 是 在 设 
计 者 的 脑子 里 进行 的 。 

设计 人 员 应 记录 符号 的 含义 ， 以 便 让 其 他 人 理解 他 们 的 表示 ， 让 人 们 知道 每 个 符号 是 
什么 意思 ， 使 他 们 可 以 检查 给 定 命题 的 真实 性 。 符 号 含义 的 规范 被 称 为 本 体 (ontology)。 
本 体 可 以 在 注释 中 非 正式 地 说 明 ,， 但 是 本 体 越 来 越 多 地 被 用 在 正式 语言 中 ， 以 便 能 使 语义 
具有 互 操 作 性 一 一 互 操作 性 是 指 在 不 同 知 识 库 中 统一 使 用 符号 的 能 力 ， 使 得 相同 的 符号 具 
有 同一 个 含义 。 这 部 分 内 容 将 在 本 书 第 13 章 详细 讨论 。 

第 四 步 可 以 由 其 他 大 来 做 ， 只 要 他 们 能 够 理解 本 体 就 可 以 。 其 他 人 只 需要 知道 问题 和 
答案 中 符号 的 意义 ， 并 且 相 信 知识 库 设计 者 已 经 交代 的 事实 为 真 ， 就 可 以 推断 他 们 的 问题 
的 答案 。 

2. 计算 机 角度 的 语义 观 

为 系统 提供 信息 的 知识 库 设 计 者 享有 预期 解释 ， 并 且 根 据 预 期 解释 来 解释 符号 。 设 
计 者 对 知识 库 和 一 组 命题 进行 声明 ， 给 出 在 预期 解释 中 什么 是 真 命题 。 计 算 机 没有 途径 
使 用 该 预期 解释 ， 只 有 途径 使 用 知识 库 中 的 命题 。 我 们 会 看 到 ， 计 算 机 可 以 辨别 某 个 命 
题 是 不 是 知识 库 的 逻辑 结论 。 如 果 知 识 库 设计 者 已 经 根据 符号 的 意义 进行 了 真 值 赋值 ， 


那么 该 预期 解释 就 可 以 看 做 是 公理 的 模型 。 假 设 预期 解释 是 知识 库 的 模型 ， 那 么 如 果 某 ， 


一 命题 是 知识 库 的 逻辑 结论 ， 则 在 该 预期 解释 中 该 命题 为 真 ， 因 为 在 知识 库 的 所 有 模型 
中 它 都 为 真 。 

人 逻辑 结论 的 概念 看 来 是 从 公理 化 世界 推导 出 隐 含 信息 的 有 力 工具 。 假设 KB 代表 着 关 
于 预期 解释 的 知识 ， 也 就 是 说 预期 解释 是 知识 库 的 一 个 模型 ， 是 所 有 系统 都 知道 的 预期 解 
释 。 如 果 KBFg， 那 么 g 在 预期 解释 中 一 定 为 真 ， 因 为 它 在 知识 库 的 所 有 模型 中 都 为 真 。 
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如 果 KB 严 g， 也 就 是 说 如 果 g 不 是 该 知识 库 的 逻辑 结论 ， 则 存在 g 为 假 的 KB 的 模型 。 
对 所 关心 的 计算 而 言 ， 预 期 解释 可 以 是 其 中 g 为 假 的 KB 的 模型 ， 因 而 不 能 确定 在 预期 解 
释 中 g 是 否 为 真 。 

给 定 一 个 知识 库 且 其 为 真 ， 则 知识 库 的 模型 对 应 着 该 世界 可 能 被 描述 的 所 有 形式 。 

【 例 5-3〗 考虑 例 5-2 的 知识 库 。 用 户 可 以 解释 这 些 符号 的 含义 ， 计 算 机 不 知道 这 些 
符号 的 含义 ， 但 是 仍然 可 以 根据 已 被 告知 的 信息 得 出 结论 。 计 算 机 可 以 得 出 在 预期 解释 中 
“ 蕴 果 被 吃 " 是 正确 的 。 计 算 机 因为 根据 预期 解释 不 知道 Sam 在 房间 里 ”是 真 还 是 假 ， 所 以 
不 能 断定 “ 灯 是 开 着 的 ”这 个 命题 是 否 正 确 。 < 

如 果 知 识 库 的 设计 者 告诉 计算 机 假 的 信息 ， 即 在 预期 解释 中 有 一 些 假 的 公理 ， 那 么 计 
算 机 从 预期 解释 中 可 能 无 法 得 出 正确 的 答案 。 

人 们 需要 知道 ， 如 果 计 算 机 不 具备 在 世界 中 感知 和 行动 的 能 力 ， 那 么 计算 机 就 不 会 知 
道 符 号 的 含义 。 符 号 的 含义 是 人 为 给 出 的 。 计 算 机 知道 的 关于 世界 的 所 有 东西 都 是 被 告知 
的 东西 。 然 而 ， 由 于 计算 机 能 够 得 出 知识 库 的 逻辑 结论 ， 所 以 它 可 以 得 到 预期 解释 中 为 真 
的 结论 。 


5.2 命题 确定 子 句 


命题 确定 子 句 (propositional definite clause) 语 言 是 命题 演算 的 子 语言 ， 它 不 允许 存在 
不 确定 性 或 歧义 性 。 在 这 种 语言 中 ， 命 题 与 在 命题 演算 中 定义 的 命题 具有 相同 的 含义 ， 但 
在 知识 库 中 不 是 所 有 的 复合 命题 都 是 被 允许 的 。 
命题 确定 子 甸 的 语法 (syntax) 如 下 : 
。 原子 命题 (atomic proposition) 或 原子 (atom) 与 在 命题 演算 中 的 定义 是 一 样 的 。 
。 主体 Cbody) 是 一 个 原子 或 者 多 个 原子 的 合 取 。 递 归 地 定义 ,一 个 主体 可 以 是 一 个 
原子 命题 或 形 如 “a 人 5” 的 形式 ， 其 中 a 是 一 个 原子 , b 是 一 个 主体 。 
° 确定 子 句 (definite clause) 既 可 以 是 一 个 原子 a， 称 为 原子 子 旬 (atomic clause), H 
可 以 是 形式 为 a<-b 的 子 句 ， 称 为 规则 (Crule) ， 其 中 a 是 头 部 (head)， 是 一 个 原子 ， 
而 5 是 主体 。 
。 知识 库 (knowledge base) 是 一 组 确定 子 句 的 集合 。 
【 例 5-4] 在 例 5-2 中 知识 库 的 元 素 全 部 都 是 确定 子 句 。 
以 下 不 是 确定 子 句 : 
apple_is_eaten | bird_eats_apple 
sam_is_in_room À night_time«-switch_1l_is_up 
Apple_is_eaten<—Bird_eats_apple 
happy \ sad V “alive 


由 于 原子 必须 以 小 写字 母 开 始 ， 第 三 个 命题 不 是 确定 子 句 。 < 


需要 注意 的 是 ， 确 定子 句 是 一 种 受 限 制 的 子 句 形式 。 例 如 ， 确 定子 句 

a<bAcAd 
SRT FA 

aV 7bV "eV œd 

通常 来 讲 ， 一 个 确定 子 名 等 价 于 恰 有 一 个 正文 字 ( 非 否 的 原子 ) 的 子 句 。 命 题 确定 子 句 
不 能 表示 原子 的 析 取 (如 a V 5) 或 原子 的 非 的 析 取 (如 一 eV ad). 

【 例 5-5〗 考虑 如 何 按照 用 户 角度 语义 观 的 方法 对 图 5-2 的 电气 图 进行 公理 化 。 我 们 
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可 以 使 用 这 种 公理 化 的 方法 来 模拟 电力 系统 。 而 在 后 面 的 章节 中 ， 我 们 会 进一步 扩展 如 何 
基于 所 观察 到 的 征兆 来 进行 错误 诊断 。 


插座 





图 52 已 对 组 件 命名 的 电气 环境 


假设 根据 开关 的 位 置 和 断路 器 的 状态 的 表达 可 以 确定 条 的 状态 是 开启 还 是 关闭 的 ， 如 
果 观 察 到 某 些 非 预料 的 情况 ， 最 终 我 们 也 可 以 判断 电线 、 开 关 或 断路 器 是 否 存 在 问题 。 当 
然 ， 前 提 是 我 们 并 不 关心 电线 的 颜色 、 开 关 的 设计 、 电 线 的 长 度 或 重量 、 电 线 和 电灯 的 生 
产 日 期 ， 抑 或 是 你 可 以 想象 的 此 领域 的 其 他 细节 。 

接 下 来 ， 我 们 选择 公理 化 的 抽象 层次 ， 其 目的 是 在 最 通用 的 层次 内 对 该 领域 进行 表 
达 ， 通 过 这 种 表示 ,诊断 助手 可 以 解决 该 层次 中 需要 解决 的 问题 。 我 们 同时 也 希望 ， 这 个 
层次 是 该 环境 中 Agent 所 能 获得 的 信息 层次 。 例 如 我 们 可 以 表示 实际 的 电压 和 电流 ， 同 样 
可 以 表示 一 个 12 伏 直 流 系统 或 120 伏 交 流 系 统 ， 但 是 这 对 于 开关 如 何 影响 电灯 开 闭 的 问 
题 来 说 是 无 关 紧要 的 。 相 反 ， 我 们 表示 这 个 领域 是 在 常识 层面 上 ， 即 非 电 工人 员 用 以 描述 
此 领域 的 层面 ， 就 是 根据 电流 通过 电线 从 外 面 流向 开关 来 点 亮 灯 ， 并 且 如 果断 路 器 和 开关 
被 打开 并 工作 ， 那 么 断路 器 和 照明 开关 是 与 电线 相连 的 。 l 

我 们 必须 要 选择 哪些 问题 是 需要 表示 的 。 假 设 我 们 想 表示 以 下 命题 ; 灯 是 否 是 竞 的 ， 
电线 是 否 是 通 的 ， 开 关 是 开 的 还 是 关 的 ， 组件 是 否 是 坏 的 。 

那么 我 们 要 选择 该 世界 中 有 特殊 意义 的 原子 。 我 们 可 以 用 如 下 描述 性 的 名 字 ， 例 如 用 
up_s: 来 表示 开关 s 是 否 置 上 ， 用 live 表示 灯 h 是 否 是 亮 的 ( 即 是 否 有 电流 进入 )。 计 
算 机 并 不 知道 这 些 名 字 的 含义 ， 也 无 法 了 解 原子 名 字 的 组 成 。 

在 这 个 阶段 ,我 们 什么 也 没有 告诉 计算 机 。 它 不 知道 什么 是 原子 也 不 知道 这 些 原子 所 
代表 的 意思 。 

一 旦 我 们 决定 了 使 用 什么 样 的 符号 表示 什么 含义 ， 我 们 就 使 用 确定 子 句 告诉 系统 在 真 


第 5 章 命题 和 推理 109 


实 世 界 中 什么 为 真 的 背景 知识 。 定 义 最 简单 的 确定 子 句 形式 如 下 (这 些 原 子 子 句 没有 
主体 ) : 

light_l, 

light_l, 

ok_ly 

ok_ls 

ok_ch; 

ok_chz 

live_outside 

设计 者 可 以 观察 到 该 领域 内 的 部 分 内 容 ， 并 且 知 道 如 果 电 线 w 是 通 的 那么 灯 五 就 是 
亮 的， 因为 电线 和 电灯 是 连 在 一 起 的 ， 但 是 可 能 不 知道 w 是 否 是 通 的 。 表 示 这 样 的 知识 
要 通过 以 下 规则 : 

live_l, <-live_wy 

live_wy~<—live_w, Nup_s: 

live_wy <-live_w. Ndown ss 

live_w,<live_w; A up_sı 

live_w: <—live_ ws Adown_si 

live_l,<-live_uy, 

live_w,<live_w,; \ up_s; 

live_p,=<-live_ws 

live_tw;<-live_w; \ ok_cb; 

live_p,~<-live_wy 

live_w,~<—live_w; | ok_chz 

live_ws~<-live_outside 

lit_l,<-light_l, A live_l, Nok_li 

lit_ ls<—light ls Nlive_ ls \ ok_l, 

在 运行 时 用 户 能 够 输入 观察 到 的 当前 开关 的 状态 ， 例 如 

5 是 置 下 的 (down_s1) 

s 是 置 上 的 (up_s;) 

ss 是 置 上 的 (wp_ss) 

这 个 知识 库 由 所 有 上 述 确定 子 名 组 成 ,不 论 是 背景 知识 还 是 观察 值 ， 它 都 进行 了 
表示 。 < 


5.2.1 问题 与 解答 


为 了 确定 在 某 特定 的 世界 中 还 有 哪些 事物 为 真 ， 需 要 为 该 世界 建立 描述 。 给 定 计算 机 
有 关 某 特定 领域 的 知识 库 后 ， 用 户 就 可 以 向 计算 机 询 间 该 领域 的 有 关 问 题 。 计 算 机 可 以 回 
答 该 命题 是 否 是 该 知识 库 的 逻辑 结论 。 如 果 用 户 理解 该 领域 中 原子 的 含义 ， 那 么 用 户 可 以 
解释 该 答案 。 

查询 (query) 是 询问 某 一 命题 是 否 是 知识 库 的 逻辑 结论 的 一 种 方式 。 一 且 系 统 提 供 了 
知识 库 ， 就 可 以 使 用 查询 来 询问 某 一 公式 是 否 是 该 知识 库 的 逻辑 结论 。 查 询 形式 如 下 : 

ask b 
其 中 ; b EER., 

如 果 主 体 是 知识 库 的 逻辑 结论 ， 查 询 的 问题 就 解答 (answer) 为 “是 ”， 如 果 不 是 知识 库 
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的 逻辑 结论 就 解答 为 “ 否 ”"。 后 者 并 不 一 定 意味 着 在 该 预期 解释 中 主体 是 假 的 ， 而 是 基于 知 
识 库 提供 的 知识 不 能 确定 它 是 真 还 是 假 。 
【 例 5-6) 如 果 将 例 5-5 的 知识 库 告 诉 计算 机 ， 它 可 以 回答 如 下 的 查询 。 查 询 
ask light_l, 
的 回答 是 “是 ”。 查 询 
ask light ls 
的 回答 是 “ 否 ”。 计 算 机 没有 足够 的 知识 知道 上 是 否 是 灯 。 查 询 
ask lit_l, 
的 回答 是 “是 "， 在 所 有 的 模型 中 这 个 原子 都 是 真 的 。 
用 户 可 以 通过 预期 解释 来 解释 这 些 答 案 。 < 


5.2.2 验证 


到 目前 为 止 ， 我 们 已 经 知道 了 答案 是 什么 ， 但 是 不 知道 它 是 如 何 被 计算 出 来 的 。 我 们 
定义 了 符号 上 规定 哪些 命题 应 是 知识 库 的 多 辑 结论 ， 但 不 知道 怎样 计算 它们 。 通过 演绎 
(deduction) 我 们 可 以 确定 某 个 命题 是 否 是 知识 库 的 逻辑 结论 。 演 绎 是 一 种 特殊 形式 的 推理 
(inference) 。 

验证 (proof) 是 一 种 机 械 性 的 可 推导 过 程 ， 表 明 某 一 命题 从 一 个 知识 库 逻 辑 推 出 。 定 
理 (theorem) 是 可 证 明 的 命题 。 验 证 过 程 (proof procedure) 是 一 个 用 于 推导 知识 库 的 结论 
的 算法 这 个 算法 可 能 是 不 确定 的 。 如 下 面 描述 的 “不 确定 性 选择 ”。 

给 定 一 个 验证 过 程 ，KB Feg 表示 命题 g 可 以 通过 知识 库 KB WEHA (proved) ak F H 
(derived) 。 

验证 过 程 的 质量 体现 在 它 是 否 计算 了 想 要 计算 的 内 容 。 

如 果 任 何 可 以 从 知识 库 中 导出 的 命题 都 是 知识 库 的 逻辑 结论 ， 则 称 该 验证 过 程 为 合理 
的 Csound) 。 即 如 果 KBHg， 那 么 KBFg。 

如 果 对 于 知识 库 的 每 一 个 逻辑 结论 都 存在 一 个 验证 ， 那 么 该 验证 过 程 称 为 完备 的 
(complete)。 即 如 果 KBEg, 那么 KBHg. 

我 们 有 两 种 方式 为 命题 确定 子 句 构建 验证 过 程 : 一 种 是 自 底 向 上 的 过 程 ， 另 一 种 是 自 
顶 向 下 的 过 程 。 

1. 自 底 向 上 的 验证 过 程 

第 一 个 验证 过 程 是 自 底 向 上 的 验证 过 程 (bottom-up proof procedure), ， 即 导出 逻辑 结 
果 。 自 底 向 上 证 明 过 程 如 同 建 房子 ， 我 们 需要 先 建 好 房子 结构 才能 自 底 向 上 建 房 。 自 底 向 
上 的 验证 过 程 需要 先 建立 原子 命题 。 该 验证 方法 不 同 于 自 顶 向 下 方法 ， 自 项 向 下 方法 是 起 
始 于 一 个 查询 ， 并 试图 找到 支持 该 查询 的 确定 子 句 。 有 时 我 们 会 说 自 底 向 上 的 过 程 是 在 确 
定子 句 上 做 正 向 链接 (forward chaining)， 是 从 我 们 所 知道 的 事实 去 推理 ， 而 不 是 从 查询 的 
反 向 去 推理 。 

自 底 向 上 验证 的 总 体 思路 是 基于 推导 规则 (rule of derivation) ， 广 义 的 规则 推理 形式 
称 为 假 言 推理 : 

如 果 在 知识 库 中 “h<-bl No Nb," R—-PREF YD, MLB | PRA, PAh 
成 立 。 

这 个 规则 中 也 包含 了 当 m=0 MH: 自 底 向 上 的 验证 过 程 可 以 在 没有 主体 的 确定 
子 句 的 头 部 推导 出 原子 命题 。 
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图 5-3 给 出 了 计算 确定 子 句 集合 KB 的 结论 集合 C 的 验证 过 程 。 在 这 个 验证 过 程 中 ， 
WR g 是 一 个 原子 且 g EC， 程 序 DCDeductionBU 运行 后 有 Bl-g。 对 于 合 取 ， 如 果 
g, EC, 其 中 每 个 i 满足 O<i<k, Mj KB Fei AA gy. 


l: procedure DCDeductionBU( KB) 
2; Inputs 
KB: 确定 子 句 集合 
Output 
原子 集合 ， 即 KB 的 逻辑 结果 
Local 
C: 原子 集合 


Ct} 

repeat 
select KB PHJ hab, A= Aba”, HEP, HWA i BEC. hEC 
C= CU {h} 

until 没有 其 他 的 确定 子 名 可 以 选择 


return C 





图 5-3 计算 KB 结果 的 自 底 向 上 验证 程序 


[B 5-7] 假设 给 出 系统 的 知识 库 KB 

a<bAc 

bed Ne 

beg Ne 

d 

feang 

自 底 向 上 的 程序 中 C 的 跟踪 值 如 下 : 

{} 

{d} 

{e.d} 

{cresd} 

{b,c,e,d} 

{asb.c,e,d} 

在 该 算法 结束 时 ，C=({ae，5，c，e，z2)， 因 此 知识 库 KBFa, KBH, FS. 

在 知识 库 中 从 没有 使 用 过 最 后 这 条 规则 。 自 底 向 上 的 验证 过 程 不 能 推导 了 和 g。 因 为 
可 能 存在 某 一 模型 ， 其 中 的 了 和 gg 都 为 假 ， 所 以 Ale 在 本 验证 中 不 能 被 推导 出 来 。 “本 

如 图 5-3 的 验证 程序 可 以 建立 许多 命题 。 

合理 性 (soundness) C 中 的 每 个 原子 都 是 知识 库 KB PMR. RMR A KBE 
g 则 KBFg。 为 了 说 明 这 一 点 ,假设 在 集合 C 中 存在 一 个 不 符合 知识 库 KB 的 逻辑 结果 的 
原子 。 如 果 存 在 这 样 的 原子 ， 那 么 肯定 有 被 首先 加 入 C 的 元 素 ， 该 元 素 在 KB 的 所 有 模型 
中 都 不 为 真 。 假 设 这 个 原子 是 疡 ， 并 假设 其 在 KB 的 模型 T 中 不 为 真 ， 那么 h 必 是 产生 的 
第 一 个 工 中 不 为 真 的 元 素 。 由 于 天 已 经 产生 ， 则 在 知识 库 KB 中 必定 存在 确定 子 句 六 < 
by Ass A Bay 81 °** One 都 是 属于 集合 C 的 (其 中 存在 着 一 种 特殊 情况 ， h 是 原子 子 句 ， 则 
m=0). 6 在 h 之 前 产生 且 在 模型 T 中 都 为 真 。 在 模型 工 中 这 个 子 句 的 头 部 是 假 ， 主体 是 
真 ， 因 此 ， 通 过 确定 子 句 的 真 值 判断 出 这 个 子 句 在 工 中 为 假 。 这 与 工 是 知识 库 KB 的 模型 
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这 一 事实 相 了 矛盾 。 因 此 ， 集合 C 中 的 每 个 元 素 都 是 知识 库 KB 的 逻辑 结果 。 

复杂 性 (complexity) 图 5-3 中 算法 的 结束 条 件 和 循环 次 数 都 是 由 知识 库 中 确定 子 
句 的 数量 决定 的 。 这 很 容易 看 出 ， 因 为 每 个 确定 子 句 只 能 用 一 次 。 因 此 ， 如 果 可 以 索 
引 到 确定 子 名 那么 内 部 循环 可 以 连续 执行 ,程序 算法 的 时 间 复 杂 度 在 知识 库 中 是 旦 线 
性 的 。 

不 动 点 (fixed point) ”图 5-3 算法 中 最 后 生成 的 C 被 称 为 不 动 点 ， 因 为 推导 规则 的 任 
何 更 进一步 应 用 都 不 能 改变 C。 由 于 没有 再 小 的 不 动 点 了 ，C 就 是 最 小 的 不 动 点 (mini- 
mum fixed point), 

令 I 是 最 小 不 动 点 中 每 一 个 原子 都 为 真 且 每 一 个 不 在 最 小 不 动 点 中 的 原子 都 为 假 的 解 
释 。 为 了 说 明 一定 是 KB PRE, Bie Ab, A Ab, "EC KB 在 模型 T 中 为 假 。 这 
种 情况 唯一 可 能 发 生 的 途径 是 ， 假设 bio o bn 在 不 动 点 中 ; 但 hh 不 在 不 动 点 中 。 通 过 
解释 ， 推 导 规 则 可 以 将 及 加 入 不 动 点 中 ， 则 对 于 其 是 否 在 不 动 点 中 产生 了 一 个 矛盾 。 因 
it. Æ KB 中 不 能 存在 确定 子 句 解 释 为 假 且 在 不 动 点 中 的 情况 。 因 此 了 是 知识 亩 及 B 的 一 
个 模型 。 

完整 性 (completeness) ”假设 KBFg， 则 在 每 个 知识 库 模 型 中 g 都 为 真 ， 于 是 在 定义 
最 小 不 动 点 的 模型 了 中 为 真 ， 在 C 中 也 为 真 ， 因此 KBfg. 

上 面 由 最 小 不 动 点 所 定义 的 模型 T 称 为 最 小 模型 (minimum model), HRE RD WA 
命题 。 每 一 个 在 I 中 的 原子 在 其 他 模型 中 必 为 真 。 

2. 自 顶 向 下 的 验证 过 程 

男 一 种 验证 方法 是 从 查询 反 向 搜索 或 是 自 顶 向 下 搜索 ， 来 确定 其 是 否 是 给 定 的 确定 子 
句 的 逻辑 结论 。 这 个 过 程 被 称 为 命题 确定 子 句 解析 (CDropositional definite clause resolu- 
tion) 或 SLD 解析 。 其 中 SL 代表 使 用 线性 策略 选择 原子 ,DD 代表 确定 子 句 。 这 是 一 种 更 为 
普遍 的 解析 方法 。 


不 确定 性 选择 


在 许多 人 工 智 能 程序 中 ， 我 们 希望 从 如 何 求解 中 分 离 出 来 解 的 定义 。 通 常 选用 不 确定 
性 算法 ， 不 确定 性 Cnon-deterministic) 算法 指 程序 中 存在 着 没有 明确 指明 的 选择 。 以 下 是 
两 种 不 确定 性 选择 的 类 型 : 
。 不 介意 不 确定 性 (don’t-care non-determinism)， 以 图 5-3 中 “select” 为 例 。 在 这 种 
不 确定 性 形式 中 ,车 一 种 选择 没有 给 出 解决 方案 ， 那么 尝试 其 他 车 代 的 选择 也 是 
无 济 于 事 的 。 不 介意 不 确定 性 用 在 对 于 有 限 数 量 的 资源 产生 大 量 需 求 的 资源 分 本 
问题 中 ， 每 一 次 ， 调 设 算 法 需要 选 出 谁 得 到 了 哪些 资源 。 结 果 的 正确 性 并 不 受 选 
择 的 影响 ， 但 是 效率 和 终止 条 件 可 能 受 其 影响 。 当 存在 着 一 个 无 限 序 列 的 选择 时 ， 
如 果 最 终 选 择 了 一 个 可 被 重复 选择 的 元 素 ， 那 么 这 是 一 种 公平 (fair) 的 选择 机 制 。 
一 个 元 素 的 问题 反复 多 次 不 被 选中 的 称 为 饥饿 (starvation)。 我 们 要 确保 任何 选择 
都 是 公平 的 。 
© 不 知道 不 确定 性 (don’t-know non-determinism)， 以 后 面 的 图 5-4 中 “choose” 为 例 。 
一 个 挑选 没有 得 出 解决 方案 并 不 意味 着 其 他 的 挑选 不 会 得 出 解 涛 方案。 我 们 经 常 
讲 ， 在 每 一 点 的 预言 (oracle) 可 以 实例 化 ， 不 同 的 挑选 将 会 得 到 不 同 的 解 。 由 于 我 
们 的 Agent 无 法 获知 这 样 的 预言 ， 所 以 Agent 需要 搜索 整个 空间 交替 挑选 第 3 
章 给 出 了 算法 搜索 空间 。 
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不 知道 不 确定 性 在 计算 复杂 性 理论 中 扮演 着 很 重要 的 角色 。P 问题 就 是 多 项 
式 时 间 内 能 够 解决 的 问题 。NP 类 问题 包含 了 通过 预言 可 以 在 多 项 式 时 间 内 解决 的 
间 题 ， 而 预言 则 是 每 次 选取 正确 的 值 ， 这 等 价 于 一 个 解 在 多 项 式 时 间 内 可 被 验证 。 
人 们 普遍 推测 P 产 NP， 这 意味 着 没有 这 样 的 预言 友 在 。 复 染 性 理论 的 最 重大 发 现 
是 在 NP 类 里 所 有 的 最 难 问题 都 是 同等 复杂 的 ， 如 果 其 中 一 个 问题 可 以 用 多 项 式 
时 间 来 求解 ， 那 么 所 有 这 些 NP 问题 都 可 以 用 多 项 式 时 间 求 解 。 这 些 问 题 是 NP SE 
全 (NP-complete) 的 。 如 果 一 个 问题 至 少 与 NP 完全 问题 一 样 难 ， 则 这 个 问题 就 是 
NP 难 (NP-hard) 的 问题 。 

在 本 书 中 ， 我 们 对 于 不 介意 不 确定 性 问题 使 用 “select” 术 语 ， 对 不 知道 不 确定 性 问题 
使 用 “choose” 术 语 。 在 不 确定 性 过 程 (non-deterministic procedure) 中 ， 我 们 假设 每 一 个 预 
言 者 可 以 对 应 产生 合适 的 第 远 。 因 此 ， 如 果 在 一 次 第 选中 产生 挑选 状态 ， 则 成 功 ， 或 者 如 
果 没 有 这 样 的 筛选 ， 则 会 失败 (fail)。 不 确定 性 过 程 可 以 有 很 多 答案 ， 其 中 车 有 很 多 筛选 
则 基 成 功 的 ， 若 没有 合适 的 入 选 则 将 会 失败 。 我 们 也 明确 定义 失败 的 筛选 为 不 成 功 的 。 预 
言 可 以 通过 搜索 来 获得 。 


自 顶 向 下 的 验证 过 程 可 以 通过 答案 子 铝 的 形式 理解 。 答 案子 名 (answer clause) 的 形式 
如 下 : 

yessa, Naz N" Nam 
其 中 yes 是 一 个 特殊 的 原子 。 直 观 上 看 ， 当 查询 的 结果 是 “yes” 的 时 候 ，yes RHA. 

如 果 查 询 为 : 

ask gq, 人 和 人 … Aan 

初始 答案 子 句 为 : 

yess, A Mae 

给 定 一 个 答案 子 句 ， 自 顶 向 下 算法 在 答案 子 句 主体 中 挑选 一 个 原子 。 假 设 其 选择 了 原 
Fa, Ma 称 为 目标 (goal)。 算 法 通过 一 步 一 步 的 归结 (resolution) 来 运行 。 在 一 步 归 结 
中 ， 其 选择 KB Pa, 作为 头 部 的 确定 子 句 。 如 果 没 有 这 样 的 子 句 ， 则 归结 失败 。 对 于 上 述 
答案 子 句 的 分 解 (resolvent) 选 择 a; 的 过 程 中 使 用 到 了 确定 子 句 

a rh BD 
那么 ， 分 解 是 答案 子 句 ， 

yesa, A= Naim Abi A+ Abp Aaii Ae 人 an 
也 就 是 说 ， 答 案子 句 中 的 目标 被 选择 的 确定 子 句 的 主体 进行 了 和 替代。 

答案 (answer) 是 指 有 一 个 空 主体 (区 =0) 的 答案 子 句 。 因 此 ， 这 个 答案 子 句 即 为 
Ness 

对 于 知识 库 KB 中 查询 "ask gl A A ge”, SLD 推导 (SLD derivation) ESF WM FF 
列 Yoo Yis “> Yas 其 中 

。 y 是 根据 原始 查询 得 到 的 答案 子 句 ， 即 答案 子 句 yes<-qi A Ngre 

> 是 知识 库 KB PRET a ya. 

。 为 BER. 

该 自 顶 向 下 算法 的 另 一 种 思考 方式 是 搜集 所 有 需要 证 明 的 原子 的 集合 C。 每 一 个 需要 
被 证 明 的 原子 是 一 个 目标 。 起 始 ，G 是 查询 中 原子 的 集合 。 子 句 ab A Ab, HAH 
bis =, b TARAH Ra. GAHE b Mea 的 一 个 子 目 标 Csubgoal) 。 需 要 被 证 明 的 G 
对 应 了 答案 子 句 yes<G, 
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图 5-4 中 的 程序 是 用 于 解决 查询 的 程序 ， 该 程序 遵循 推导 的 定义 。 在 这 个 程序 中 ，G 是 

71] 答案 子 句 的 主体 中 原子 的 集合 。 如 果 算 法 中 存在 一 个 点 ， 在 这 个 点 上 必须 选择 一 个 确定 子 名 
来 解决 冲突 ， 则 这 个 程序 是 不 确定 的 。 如 果 有 导致 G 为 空 集 的 选择 ， 返回 yes， 否 则 失败 。 

此 算法 将 子 句 主体 视 为 一 组 原子 





集合 ， res 也 是 一 组 原子 集合 ， 也 可 以 * ee DCDeductionTD( KB, Query) 
通过 将 G 中 的 重复 个 体 移 除 来 获得 这 : KB; 确定 子 句 集合 
个 集合 ， 也 可 以 通过 将 G 作为 一 个 原 | 4: Query: 待 证 明 原 于 集合 
子 列表 来 实现 ， 但 这 可 能 存在 菜 个 原 | ew cpt Ouri. MAEM 
子 出 现 多 次 的 情况 。 a 

注意 算法 要 求 每 次 选择 的 原子 使 | fC MITES 
用 相同 的 选择 策略 。 不 需要 在 不 同 的 | 10 reat 
选择 集合 间 进 行 搜索 ， 但 是 所 选集 合 | 11: select G 中 的 一 个 原 于 a ae. 
影响 算法 的 执行 效率 。 一 般 性 的 选择 |i ome Khe AOE a 
策略 是 在 原子 的 排序 中 选择 最 左边 的 | 14: aalc=4} - 
原子 。 这 是 一 个 不 公平 的 策略 ; 当 不 3 
同 的 策略 失败 时 ， 其 可 能 会 陷入 死 循 图 5-4 自 顶 向 下 确定 子 句 验证 程序 
环 。 最 好 的 选择 策略 是 选择 最 有 可 能 
失败 的 原子 。 


【 例 5-8) 假设 给 出 知识 系统 如 下 : 
asb Ne 
bd Ne 
beghe 
d 
feag 

询问 如 下 : 
ask a 

[172] 下 面 的 推导 是 对 应 于 图 5-4 的 重复 循环 中 对 于 G 的 循序 分 配 。 假设 G 通 过 有 序 表 表 

R, 并且 总 是 选择 G 中 最 左边 的 原子 : 
yessa 
yesbic 
yesd \eNKc 
yesse Àc 
yesse 
yes<e 
yess 
下 面 是 选择 序列 ， 当 选择 了 对 应 于 2 的 第 二 个 确定 子 句 时 ， 证 明 过 程 失败 。 
yessa 
yessbAc 
yesgAeAc 


如 果 选 择 了 g， 则 没有 其 他 规则 可 以 选择 ， 那 么 证 明 的 尝试 失败 。 < 
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当 自 顶 向 下 的 程序 已 经 得 出 答案 后 ， 可 以 使 用 推导 中 的 规则 在 自 底 向 上 程序 中 对 查询 
进行 推导 。 同 样 ， 自 底 向 上 的 原子 证 明 也 可 以 使 用 自 顶 向 下 的 推导 过 程 。 这 种 等 效 可 以 用 
于 表明 自 顶 向 下 的 证 明 过 程 的 合理 性 和 完整 性 。 按照 定 义 ， 自 项 向 下 的 证 明 过 程 多 次 重复 
证 明 相 同 的 原子 花费 额外 的 时 间 ， 而 自 底 疝 上 的 程序 每 个 原子 只 证 明 一 次 。 然 而 ， 自 底 疝 
上 的 程序 证 明 每 一 个 原子 ， 而 自 顶 向 下 的 程序 证 明 与 查询 相关 的 原子 。 

图 5-4 的 自 顶 向 下 的 非 确定 性 算法 结合 选择 策略 就 引出 了 树 形 搜索 图 ， 搜 索 图 中 每 个 
节点 表示 一 个 等 案子 句 。 邻 域 节点 子 句 yesa Ae Nams JEP a; 是 选择 的 原子 ,通过 确 
Ea 来 找到 所 有 可 能 的 答案 子 句 。 对 于 每 一 个 头 部 为 a; 的 子 句 都 有 一 个 邻居 节点 。 每 一 
次 搜索 的 目标 节点 的 形式 为 : yes。 

(5-9) 给 定 如 下 的 知识 库 : 

axbAc amg ash yesi. 

bej bek dom : | 


ese—h’d 
db f-m fep yes—b^c^d jorge \ 
gsm gef kam Sa yes—m^d 
hem 起 yes—j^e^d 
-fd 
询问 如 下 : yee OF 
aska Ad peri d a eid 
在 SLD 推导 的 搜索 图 中 ， 假 设 在 每 个 答案 子 句 中 选 sole oaa 
择 最 左边 的 原子 ， 搜 索 图 如 图 5-5 所 示 。 a sect pep 
对 于 大 多 数 问题 ， 我 们 都 没有 给 出 静态 的 搜索 图 ， 由 


因为 这 需要 预测 每 一 个 可 能 的 查询 。 更 为 现实 的 是 动态 
构造 搜索 图 。 所 需要 的 方法 是 生成 节点 的 邻居 。 所 选择 BO? 自 页 向 下 推 字 的 搜索 图 
的 答案 子 句 中 的 原子 决定 了 邻居 集合 。 对 于 每 一 个 所 选择 的 原子 作为 头 部 的 规则 都 存在 一 
个 邻居 。 

第 3 章 中 的 所 有 搜索 方法 都 可 用 于 进行 搜索 空间 的 搜索 。 因 为 我 们 只 关心 查询 结果 是 
否 是 合乎 逻辑 的 ， 所 以 我 们 只 是 需要 一 个 目标 节点 的 路 径 而 不 是 一 条 最 佳 路 径 。 每 个 查询 
有 不 同 的 搜索 空间 。 在 每 一 步 选择 不 同 的 需要 解决 的 原子 会 导致 搜索 空间 的 不 同 。 


5.3 知识 表示 问题 . 
5.3.1 背景 知识 与 观察 


观察 (observation) 是 一 种 在 线 接 收 的 来 自用 户 、 传 感 器 或 其 他 知识 源 的 信息 。 本 章 假 
设 一 个 观察 是 一 个 原子 命题 ， 由 于 不 同 观察 是 隐 式 连接 的 ， 所 以 一 组 观察 可 表示 为 一 组 连 
接 的 原子 命题 。 虽 然 用 户 和 传感器 都 无 法 从 观察 到 的 世界 中 直接 获取 规则 ， 但 是 Agent 可 
通过 背景 知识 从 观察 中 得 出 有 用 的 内 容 。 

在 许多 推理 框架 中 ， 观 察 补 充 到 背景 知识 中 。 但 在 其 他 推理 框架 中 (例如 ， 测 因 推 再、 
概率 推理 、 学 习 等 )， 观 察 与 背景 知识 相 分 离 。 

不 能 期 望 用 户 提供 的 内 容 都 是 真实 的 。 首 先 ， 用 户 不 确定 知识 的 相关 性 ， 其 次 ， 他 们 
也 不 确定 采取 何 种 词汇 来 表达 。 本 体 Contology) 和 用 户 界面 可 解决 词汇 使 用 的 问题 ， 前 者 
指明 符号 含义 ， 后 者 允许 用 户 选 取 真 实 含义 。 然 而 ,许多 问题 太 过 复杂 ， 如 : 知识 相关 性 
取决 于 其 他 知识 的 真实 性 ,而 繁复 的 相关 事实 ,使 得 用 户 即 使 通过 复杂 的 图 形 用 户 界 面 也 
难以 确定 所 有 内 容 的 真实 性 。 
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同样 ， 被 动 传 感 器 可 提供 原子 命题 合 取 的 直接 观察 ， 但 主动 传感器 必须 接收 Agent 发 
出 的 任务 所 需 的 查询 信息 。 


5.3.2 询问 用 户 


在 设计 或 离线 时 ， 通 常 难以 获得 特例 信息 。 特 例 信息 源 于 在 线 的 用 户 、 传 感 器 等 外 部 
知识 源 。 例 如 ， 医 疗 诊断 程序 将 可 能 的 疾病 和 症状 表示 成 确定 子 句 ， 但 它 不 具有 特定 病人 
的 实际 症状 等 信息 。 因 为 用 户 通常 不 确定 哪些 信息 相关 ， 也 不 了 解 表示 语言 的 语法 ， 所 以 
不 能 期 望 用 户 来 提供 一 个 特例 的 所 有 信息 。 作 为 用 户 ， 更 愿意 通过 自然 语言 来 回答 实际 问 
题 。 询 问 用 户 Cquerying the user) 的 思路 是 向 用 户 求证 相关 问题 ， 使 得 用 户 成 为 系统 的 信 
息 源 ， 从 而 确定 哪些 信息 是 相关 的 ,并 有 助 于 验证 查询 。 

在 自 项 向 下 的 验证 程序 中 融入 询问 用 户 机 制 是 从 用 户 获取 信息 的 最 简单 的 方法 。 在 该 
机 制 下 ， 如 果 用 户 在 运行 时 知道 某 原 子 的 真 值 ， 则 该 原子 是 可 询问 的 (askable)。 自 顶 向 下 
的 验证 过 程 中 ， 待 验证 的 原子 除 可 使 用 知识 库 中 的 命题 子 句 来 证 明 外 ， 当 原子 可 询问 时 ， 
还 可 询问 用 户 该 原子 是 否 为 真 ， 而 用 户 只 被 询问 与 查询 相关 的 原子 。 可 以 选择 的 原子 分 为 
以 下 三 种 类 型 , 

*。 对 于 用 户 未 知 答案 的 原子 ， 系 统 无 需 询 问 。 

。 对 于 用 户 还 没有 提供 答案 的 可 询问 原子 ， 可 以 询问 用 户 ， 并 记录 答案 。 

。 对 于 用 户 已 经 提供 了 答案 的 可 询问 原子 ， 使 用 该 答案 ， 无 需 询问 用 户 。 

自 底 向 上 的 验证 过 程 也 可 使 用 询问 用 户 机 制 ， 但 应 避免 询问 所 有 的 可 询问 原子 ， 见 习 
题 5.5。 

需 注 意 ， 系 统 角色 和 用 户 角 色 具 有 对 称 性 ， 均 可 提出 问题 也 可 回答 问题 。 从 顶层 的 角 
度 ， 用 户 询问 系统 问题 ， 而 在 每 一 步 中 ， 系 统 询 问 问题， 并 通过 寻找 相关 确定 子 句 或 者 询 
问 用 户 获 得 回答 。 整 个 系统 可 以 用 问题 和 答案 的 一 套 规约 来 描述 。 

【 例 5-10] 在 例 5-5 的 电气 领域 中 ， 无 需 期 望 房子 的 设计 师 了 解 开 关 的 位 置 或 者 期 望 
用 户 知 道 哪个 开关 连接 到 哪 条 电线 上 。 合 理 的 做 法 是 ， 除 开关 位 置 外 ， 所 有 确定 子 句 均 由 
设计 师 给 出 ， 然 后 将 开关 位 置 设 置 成 为 可 被 询问 的 。 

下 面 是 可 能 的 对 话 ， 由 用 户 提 出 查询 ， 并 根据 询问 回答 是 或 否 。 此 时 ， 用 户 界 面 仅 是 
实现 基本 思路 的 简单 界面 ,真实 的 系统 应 提供 更 为 精细 和 友好 的 用 户 界面 。 

Hm: ask lit 1。 

ups HRY? [E F, AM, Jta, HHI: Fa 

down, XAB? (2, B., KM, AA, PHI]: 是 。 

down, HHS? LÆ, E, Ra, HWA. WHI: 是 。 

BA; lithe 

系统 只 询问 用 户 可 以 回答 和 与 手头 任务 相关 的 问题 。 < 

比 起 回答 问题 ， 更 好 的 情况 是 用 户 所 指出 的 异常 的 事情 。 比 如 说 ， 病 人 可 能 无 法 确定 
所 有 问题 是 否 为 真 ， 但 可 指出 哪些 是 异常 的 。 例 如 ， 一 个 病人 进门 后 可 能 会 说 他 的 左 膝盖 
疼 ， 那 么 希望 用 户主 动 说 他 们 左 肘 或 者 身体 其 他 器 官 不 疼 是 一 种 不 合理 的 要 求 。 虽 然 传 感 
器 可 能 无 法 识别 出 该 场景 中 的 事物 ， 但 是 可 能 识别 场景 中 的 变化 。 

当 一 个 用 户 指出 每 件 事 都 存在 异常 时 ，Agent 通常 可 以 从 欠缺 的 知识 中 推断 出 一 些 情 
况 。 此 时 ， 常 态 可 被 重 载 为 以 异常 信息 为 内 容 的 默认 设置 (default)， 这 种 允许 默认 和 异常 
作为 默认 设置 的 思路 将 在 5. 5 节 详 细 论述 。 
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5.3.3 ”知识 层 的 解释 


使 用 者 可 以 使 用 语义 在 知识 层 (knowledge .level) 上 解释 和 调试 。 为 确保 系统 可 为 人 
用 ， 系 统 不 能 仅 给 出 答案 或 期 望 用 户 相 信 它 。 假 设 存在 一 个 为 医生 提供 建议 的 系统 ， 医 生 
根据 诊断 进行 处 置 。 医 生 必 须 确信 诊断 是 适当 的 。 而 系统 必须 能 够 验证 它 的 答案 是 正确 
的 。 我 们 可 以 使 用 相同 的 特征 来 解释 系统 是 如 何 获得 结果 以 及 调试 知识 库 的 。 

可 以 使 用 三 种 互补 的 疑问 句 来 解释 相关 的 知识 : “how” 用 来 解 
释 如 何 得 出 某 一 答案 ; 2) 为 什么 的 问题 一 一 “why” 用 来 问 系统 为 什么 问 用 户 这 个 问题 ; 
3) 为 什么 不 的 问题 一 一 “whynot" 用 来 问 某 一 原子 不 能 被 证 明 的 原因 。 

为 了 解释 答案 是 如 何 得 出 的 ， 妆 系统 返回 答案 时 ， 用 户 可 以 询问 “如何 做 到 ”的 how 
问题 ， 系 统 提供 用 于 推断 答案 的 确定 子 句 。 对 于 确定 子 句 主体 中 的 任何 原子 ， 用 户 可 以 向 
系统 询问 是 如 何 导 出 该 原子 的 。 

用 户 可 以 通过 问 “为 什么 ?的 why 问题 来 回应 被 问 的 问题 。 该 系统 将 推导 问题 的 规则 
作为 回复 。 然后， 用 户 可 以 继续 问 为 什么 该 规则 的 头 部 原子 可 被 证 明 。 用 户 通 过 系统 回复 
的 这 些 规则 遍历 验证 过 程 或 顶级 查询 的 部 分 验证 。 

“为 什么 不 ”的 whynot 问题 可 以 用 来 问 某 一 原子 不 能 被 证 明 的 原因 。 

1. 系统 如 何 来 证 明 某 一 目标 

第 一 个 解释 程序 允许 用 户 询问 “如 何 产生 ”的 how 问题 ， 即 “目标 是 如 何 导 出 的 ?”。 如 
E g 可 被 证 明 ， 则 g 为 一 个 原子 子 句 或 者 存在 规则 : 

geai 人 … Aa 
使 得 每 一 个 a; 都 可 被 证 明 。 

如 果 系 统 已 经 导出 g; 同时 ， 用 户 再 询问 “how”， 系 统 可 以 显示 证 明 g HED. WR 
子 句 是 一 个 规则 ， 用 户 可 继续 询问 : 

how i 
系统 将 会 给 出 证 明 的 规则 。 用 户 可 以 继续 使 用 how 问题 来 探讨 g 是 如 何 导 出 的 。 

【 例 5-11) 在 例 5-5 公理 化 的 例子 中 ， 用 户 询问 ask Liz_&。 为 了 响应 系统 对 该 查询 的 
证 明 ， 用 户 可 以 问 how 问题 。 该 系统 将 回复 : 

lit_l,< 

light_l, A 
live_ ls A 
ok_ls 

以 上 为 证 明 litl: 的 顶层 规则 。 为 探究 如 何 证 明 live_1i;， 用 户 可 以 问 : 

how 2 
系统 返回 用 来 证 明 live_is 的 规则 ， 即 


live_ls > 





live_wy, 
为 探究 如 何 证 明 live_wW ， 用 户 可 以 问 $ 
how 1 
系统 呈现 规则 如 下 : 
live_w,y<— 
live ws 人 


up_ss 
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为 了 探究 如 何 证 明子 句 主 体 中 的 第 一 个 原子 ， 用 户 可 以 问 : 
how 1 
第 一 个 原子 live_ws 可 通过 如 下 规则 证 明 : 
live_w;< 
live_ws À 
ok_ch, 
为 了 探究 如 何 证 明子 句 主体 中 的 第 2 个 原子 ， 用 户 可 以 问 ， 
how 2 
系统 会 报告 ok_ch 已 被 显 式 地 给 出 。 
请 注意 这 里 的 解释 仅 从 知识 层 给 出 ， 系 统 仅 回复 被 告知 的 确定 子 句 。 用 户 不 必 知 道 证 
明 过 程 或 者 是 实际 的 计算 过 程 。 对 
2. 系统 问 问 题 的 原因 
男 一 种 有 用 的 解释 是 某 一 问题 会 被 询问 的 原因 。 理 解 这 个 解释 是 非常 有 用 的 ， 因 为 : 
。 我 们 希望 系统 是 智能 的 ， 那么 了 解 问题 被 问 的 原因 可 提高 用 户 对 系统 智能 运行 的 
信心 。 
。 交互 式 系统 复杂 性 的 主要 测量 是 通过 询问 用 户 问题 的 数量 决定 的 ， 而 如 果 想 最 小 
化 系统 的 复杂 性 ,那么 明确 问题 被 问 原因 能 够 帮助 知识 库 设 计 者 降低 设计 的 复 
杂 性 。 
。 一 个 不 相关 的 问题 通常 是 更 深层 次 问题 的 征兆 。 
。 通过 了 解 系统 做 事 的 原因 ， 可 使 用 户 从 系统 中 学 习 到 知识 。 这 种 学 习 类 似 于 新 手 
问 熟 手 做 事 的 原因 。 
当 系 统 询 问 用 户 一 个 问题 (qd) 时 ， 系 统 必 须 有 一 个 主体 中 包含 了 a 的 命题 规则 。 用 户 
可 以 问 : 
why 
这 就 好 像 说 :“ 你 为 什么 间 我 这 个 问题 呢 ? 答 案 是 主体 中 包含 g 的 简单 规则 。 如 果 用 
户 再 次 询问 ， 系 统 应 该 解释 为 什么 位 于 规则 头 部 会 被 询问 ， 等 等 。 继 续 询 问 为 什么 会 给 出 
到 达 顶 级 查询 的 目标 的 路 径 。 如 果 给 出 的 所 有 规则 均 是 合理 的 ， 则 证 明 系 统 对 用 户 的 问题 
是 合理 的 。 - 
【 例 5-12〗 考虑 例 5-10 的 对 话 。 本 例 中 对 话 表 明 如 何 反复 使 用 why 问题 来 寻找 顶级 
目标 。 下 面 的 对 话 用 来 询问 2 ， 由 用 户 提出 查询 ， 并 回应 why: 
上 日志 :ask lit_h 
up_s HEG? 为 什么 ? 
up_sı 被 用 于 规则 live_w,<live_w, Aups: AtA? 
live_w, 被 用 于 规则 live w live_w 人 zzb ve: 为 什么 ? 
live_wy 被 用 于 规则 live_l\<live_uy: At 4A? 
live_l, 被 用 于 规则 Lit_l,<light_l, \ live_l; Nok. :为 什么 ? 
因为 这 是 你 问 我 的 问题 1 < 
通常 ，how 问题 和 why 问题 一 起 使 用 ，how 问题 从 高 目标 移 向 低 目 标 ，why 问题 从 
低 目 标 移 向 高 目标 。 用 户 同 时 使 用 这 两 类 问题 可 遍历 整个 证 明 树 (proof tree)。 在 证 明 树 
中 ， 节 点 是 原子 ， 每 个 节点 及 其 子 节点 对 应 知识 库 中 的 一 个 命题 子 句 。 
【 例 5-13] 考虑 先前 用 户 询问 why upsa 来 给 出 一 个 组 合 了 how 问题 和 why 问题 的 
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例子 。 系 统 提供 如 下 规则 ， 
live ww <live tw \ up_s, 
这 就 意味 着 ， 问 ups 是 因为 系统 想 要 知道 live w 并 且 用 这 个 规则 试 着 证 明 up_s。 
用 户 虽然 认为 系统 想 知道 live_w, 是 合理 的 ， 但 却 认 为 询问 up_s 是 不 合适 的 ， 原 因 在 
于 用 户 可 能 质疑 live_w; 是 否 会 成 功 。 在 本 例 中 ， 用 户 询问 live w 的 导出 原因 是 非常 有 
用 的 。 < 


5.3.4 知识 层 的 调试 


正如 在 其 他 软件 中 一 样 ， 知 识 库 可 能 会 有 错误 或 者 漏洞 。 领 域 专家 和 知识 工程 师 必 须 
能 够 调试 知识 库 并 添加 知识 。 在 基于 知识 的 系统 中 ， 由 于 领域 专家 和 具有 领域 知识 的 用 户 
不 一 定 知道 或 不 想 知 道 系 统 内 部 是 如 何 工作 的 ， 所 以 调试 变 得 很 困难 。 标 准 调试 工具 ， 如 
基于 执行 的 轨迹 等 ， 均 是 无 效 的 ， 因 为 它们 需要 首先 知道 产生 答案 的 知识 机 制 。 本 节 将 说 
明 如 何 使 用 语义 的 思路 为 知识 库 提供 强 有 力 的 调试 工具 ， 即 无 论 是 谁 来 调试 系统 都 仅 需 知 
道 符号 的 含义 和 特定 原子 的 真 假 ， 而 这 类 知识 恰好 是 知识 领域 专家 和 用 户 所 具备 的 。 

知识 层 调试 (knowledge-level debugging) 指 仅 参 考 符 号 的 意义 而 发 现 知 识 库 中 的 错误 
的 一 种 行为 。 建 立 可 被 领域 专家 使 用 的 知识 库 系统 的 目标 之 一 是 知识 库 应 该 准确 地 符合 
该 知识 领域 。 例 如 ， 对 于 一 个 医学 知识 库 的 调试 ， 应 由 医学 领域 而 非 人 工 智 能 专家 完 
成 。 同 样 ， 对 于 室内 布线 知识 库 的 调试 ， 应 参考 特定 的 房子 ， 而 非 基 于 知识 库 的 内 部 系 
统 推理 。 

基于 规则 的 系统 中 可 能 出 现 4 种 类 型 的 非 语法 错误 : 

。 产生 不 正确 的 答案 ， 即 在 预期 的 解释 中 导出 的 原子 为 假 。 

。 某 些 答案 没有 产生 ， 即 本 应 成 功 证 明 却 被 证 明 失 败 (没有 得 出 一 些 特定 的 真 原子 

命题 ) 。 

。 程序 陷入 死 循 环 。 

。 系统 询问 不 相关 的 问题 。 

以 下 是 调试 前 三 种 错误 的 检查 方法 ， 系 统 询问 不 相关 的 问题 可 以 通过 前 述 的 why 问 
题 进行 检查 。 

1. 不 正确 答案 

不 正确 答案 (incorrect answer) 是 指 在 预期 解释 中 已 经 被 证 明 为 假 的 答案 ， 也 叫 错 肯 定 
错误 (false-positive errorf) 。 如 果 使 用 不 正确 的 确定 子 句 ， 则 会 在 合理 性 证 明 中 产生 不 正确 
答案 。 

假设 无 论 是 领域 专家 还 是 用 户 调试 知识 库 时 ， 均 知道 语言 中 符号 的 预期 解释 ， 并 可 以 
判断 预期 解释 中 某 一 特定 命题 是 真 或 假 。 为 了 调试 不 正确 答案 ， 领 域 专 家 无 需 知 道生 成 的 
答案 ， 只 需要 对 问题 回答 是 或 否 即 可 。 

假设 有 一 个 在 预期 解释 中 已 被 证 明 为 假 的 原子 g。 那 么 在 知识 库 中 必 有 一 个 用 于 证 明 
g 的 规则 g<-al No A a:， 使 得 下 面 两 种 情况 中 至 少 有 一 个 成 立 : 

。 在 预期 解释 中 a; 中 有 一 个 为 假 ， 在 这 种 情况 下 ，g 可 以 通过 同样 的 方式 进行 调试 。 

。 在 预期 解释 中 as 中 所 有 原子 为 真 。 在 这 种 情况 下 ， 确 定子 句 ga 八 … 作 ax 一定 

是 不 正确 的 。 
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基于 上 述 情况 给 出 图 5-6 中 的 算法 ， 该 算法 在 预期 解释 所 导出 原子 命题 为 假 时 ， 可 用 
于 调试 知识 库 。 算 法 仅 需 调试 人 员 回 ; 
答 是 或 否 的 问题 即 可 。 1; procedure Debug(g,KB) 

该 过 程 也 可 通过 用 户 提 出 “how” 3 a E 
问题 来 进行 。 给 定 一 个 在 预期 解释 中 。 | 4， 4 为 一 个 原子 : 天 互 | g 而 且 & 在 对 期 鲜 秋 中 为 假 
为 假 的 原子 g 的 证 明 ， 用 户 可 询问 该 5: Output 
原子 是 如 何 被 证 明 的 。 知 识 库 将 返回 | 和 RT Ack 
用 于 证 明 g 的 确定 子 句 。 如 果子 句 是 8, for each a, do; 

一 条 规则 ， 用 户 可 以 询问 规则 主体 中 es ee 

Ze BUNCE Po BLADE “how” als, d REAR «9 a 

这 将 返回 证 明 该 原子 的 规则 。 用 户 可 12; return g-a, A ++ Aa 

以 重复 此 操作 ， 直 到 子 句 主体 中 的 所 e = 
ARKHAM RETR HS). WH BRS era ee 

断 这 个 子 句 为 不 正确 的 确定 子 句 。 上 述 调试 方法 假设 用 户 只 需 确定 预期 解释 中 原子 是 否 为 
真 ， 而 无 需 知道 所 使 用 的 证 明 程 序 。 

【 例 5-141] 考虑 例 5-5 提 到 的 电气 领域 ， 该 程序 存在 一 个 漏洞 。 假 设 该 领域 专家 或 用 
户 无 意 中 说 ，wwi 与 w 是 否 连 接 取 决 于 s 的 状态 ， 而 不 是 s 的 状态 ( 见 图 1-8) 。 因 此 ， 知 
识 包括 以 下 不 正确 的 规则 

live_ wi<*—live_ vwas \ up_ss 

其 他 公理 与 例 5-5 相同 。 给 定 公 理 集 ， 可 以 导出 在 预期 解释 中 为 假 的 原子 iit_h。 考 
虑 用 户 检测 到 该 不 正确 的 答案 时 ， 如 何 发 现 与 之 相关 不 正确 的 确定 子 句 ? 

在 给 定 的 预期 解释 中 ，/z_2 为 假 ， 用 户 询问 如 何 得 出 ， 系 统 给 出 规则 : 

lit_l,<light_l, A live_l, A ok_k; 

再 检查 该 规则 主体 内 的 原子 。 在 预期 解释 中 light_l, 和 ok_l, AH, B live AR. 
所 以 继续 询问 ， 

how 2 
则 系统 展示 规则 : 

live_li<—live_ to 

在 预期 解释 中 live wo 为 假 ， 因 此 继续 询问 : 

how 1 
系统 展示 规则 

live_ wo<—live_ wi \ up_sp 

在 预期 解释 中 Live_w 为 假 ， 因 此 继续 询问 : 

how 1 
系统 展示 规则 : 

live_wi<—live wa N up_sı 

在 预期 解释 中 这 两 种 元 素 都 为 真 ， 所 以 这 个 规则 是 漏洞 规则 。 < 

用 户 或 领域 专家 仅 需要 知道 知识 库 的 预期 解释 和 使 用 “how” 问 句 的 规则 ， 就 可 找到 存 
在 漏洞 的 确定 子 句 ， 而 不 必 知道 系 统 内 部 运作 方式 或 证 明 过 程 。 

2. 缺失 的 答案 

当 没 有 产生 预期 的 答案 时 ， 就 产生 了 第 二 种 类 型 的 错误 ， 即 本 应 产生 答案 ， 但 没有 产 
生 该 答案 时 就 是 缺失 的 答案 。 在 一 个 领域 中 ， 虽 然 目标 g 为 真 ， 但 是 根据 知识 库 的 推理 却 
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没有 产生 真 的 结果 ， 被 称 为 错 和 否定 错误 (false-negative error ) 。 

在 这 种 情况 下 ， 由 于 没有 对 g 的 证 明 ， 前 面 的 算法 不 起 作用 。 而 我 们 必须 找 出 g 未 被 
证 明 的 原因 。 

仅 当 知识 库 不 存在 某 些 确定 子 句 时 ， 不 会 产生 相应 的 答案 。 由 于 领域 专家 知道 预期 解 
释 中 的 符号 含义 以 及 哪些 查询 会 成 功 ( 即 在 预期 解释 中 哪些 为 真 )， 因 此 他 们 可 以 对 缺失 的 
答案 进行 调试 。 给 定 某 一 本 应 被 证 明 的 原子 命题 ， 图 5-7 展示 了 找到 缺失 的 确定 子 句 的 
算法 。 


l; procedure DebugMissing(g, KB) 
Inputs 
KB AAV 
g 为 一 个 原子 :KB Vg Hg 在 预期 解释 中 为 真 
Output 
缺失 的 子 句 中 的 原子 


证 存在 确定 子 句 gea, A Aa EKB 使 得 所 有 的 a, 在 预期 解释 中 都 为 真 ,then 
select 不 能 被 证 明 的 a, 
DebugMissing(a;,KB) 

else 
return g 





5-7 ”缺失 答案 的 调试 算法 


假设 g 是 一 个 本 应 被 证 明 而 实际 上 却 没 有 被 证 明 的 原子 。 由 于 g 未 被 证 明 ， 则 以 g 为 
头 部 的 所 有 确定 子 句 的 主体 都 将 失败 。 
。 假设 有 关 g 的 确定 子 句 集合 中 存在 一 条 子 句 应 该 被 证 明 ， 但 是 却 没 得 到 证 明 ; 这 
意味 着 在 子 句 主体 中 所 有 的 原子 在 预期 解释 中 都 必须 为 真 。 由 于 子 句 主体 证 明 失 
败 ， 子 句 主体 中 必 有 一 原子 证 明 失 败 , 但 该 原子 在 预期 解释 中 为 真 ， 故 可 使 用 递 
归 的 方式 进行 调试 。 
。 否则 ， 不 存在 证 明 g 的 确定 子 句 ， 则 用 户 必 须 为 g 添加 一 个 确定 子 句 。 
[B 5-15) 在 例 5-5 的 公理 化 电气 领域 中 ， 假 设 图 1-8 的 s 是 关闭 的 。 由 于 缺少 s K 
闭 的 确定 子 句 ， 例 5-5 的 公理 化 中 litl 本 应 被 成 功 证 明 但 却 证 明 失 败 。 下 面 来 找到 其 中 
的 漏洞 。 
lith 失败 ， 找 到 所 有 头 部 中 含有 lith 的 规则 ， 其 中 一 个 规则 如 下 : 
lit_h<light_l, A live_l A ok_l, 
用 户 验证 命题 中 所 有 的 元 素 都 为 真 。 主 要 表现 为 ，light_h 和 ok_l, 都 可 以 被 导出 并 
Wik, 但 live h 不 可 以 ,需要 对 其 进行 调试 。 考 虚 以 livel 为 头 部 的 一 个 规则 : 
live_l, <live_wy 
原子 live w 不 能 被 证 明 ， 但 用 户 在 预期 解释 中 认定 其 为 真 ， 故 可 以 发 现 live w 的 
规则 : 
live_w~-live_w, \ up_sz 
live wo<—live_ w, A down_s2 
用 户 发 现 ， 第 二 条 规则 的 主体 为 真 。 主 要 表现 为 ， 对 于 live w: 的 证 明 已 存在 ， 但 是 
缺乏 对 于 down_s 的 确定 子 句 ， 因 此 返回 该 原子 。 修 正方 法 是 为 该 原子 添加 适当 的 原子 命 
题 或 规则 。 < 
3. 死 循环 
如 果 证 明 中 有 一 个 原子 & 以 自身 作为 子 目 标 ， 那 么 在 自 顶 向 下 的 推导 中 会 出 现 死 循 环 
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《假设 子 目 标 是 可 传递 的 ， 一 个 子 目 标的 子 目标 仍 是 其 子 目 标 )。 因 此 ， 当 知识 库 有 环 时 ， 
就 会 存在 死 循 环 。 如 果 存 在 原子 使 得 确定 子 句 的 序列 为 如 下 的 形式 ， 则 称 知识 库 是 有 环 
(cyclic) 的: 


arta" 


artan 


(如 果 x 二 0， 则 存在 一 个 确定 子 句 ， 其 头 部 和 主体 都 为 a。) 

将 原子 赋值 成 自然 数 ( 非 负 整 数 )， 如 果 确 定子 名 主体 中 的 所 有 原子 都 被 标记 成 比 其 头 
部 中 的 原子 更 小 的 数 ， 则 知识 库 是 无 环 (acyclic) 的 。 本 章 前 面 提 到 的 知识 库 都 是 无 环 的 。 
在 无 环 的 知识 库 中 不 存在 死 循环 。 

为 了 检测 知识 库 中 是 否 有 环 ， 可 以 修改 自 项 向 下 的 证 明 程 序 ， 对 每 一 个 原子 的 所 有 父 
原子 (ancestor) 集 进行 标记 。 在 图 5-4 的 程序 中 ， 焦 合 A 包括 了 原子 和 其 父 原子 集 。 

将 每 一 个 原子 的 父 原子 集 都 初始 化 为 空 。 当 使 用 下 面 的 规则 

ata; N= Na, 
来 证 明 ait, a 的 父 原 子 集 为 a Ma 的 父 原 子 集 的 并 集 ， 即 

ancestors(a;)=ancestors(a) U {a} 

如 果 一 个 原子 在 其 父 原 子 集 中 ， 则 说 明知 识 库 有 环 ， 证 明 失 败 。 值 得 注意 的 是 ， 由 于 
每 一 个 原子 都 有 自己 的 父 原 子 集 ， 因 此， 这 种 循环 检查 相对 于 之 前 的 版 本 更 加 精简 。 

有 环 知 识 库 通常 是 存在 漏洞 的 一 个 标志 。 因 此 在 编写 知识 库 时 ， 通 过 每 次 迭代 所 减少 
的 数值 来 确定 知识 库 中 无 环 的 方法 是 非常 有 用 的 。 例 如 ， 在 电气 领域 中 ， 距 离 房 子 外 面 的 
步 数 在 每 次 循环 中 是 减少 的 。 规 则 且 显 式 地 使 用 熟知 排序 可 以 用 来 预防 死 循 环 ， 正 如 在 传 
统 语言 的 编程 中 必须 小 心 编码 才能 防止 死 循 环 一 样 。 

注意 ， 自 底 向 上 的 验证 过 程 不 会 陷 人 死 循 环 ， 因 为 其 只 选择 头 部 没有 被 导出 的 规则 。 


5.4 Riki WIE 


如 果 人 允许 规则 给 出 矛盾 ， 则 可 在 反 证 法 证 明 中 使 用 确定 子 句 。 例 如 ， 在 电气 布线 领域 
中 ， 指 出 某 些 预测 非 真 是 很 有 用 的 ， 例 如 light_l2 is on 非 真 。 该 方法 使 得 诊断 推导 可 以 
推理 出 哪些 开关 、 灯 或 者 断路 器 是 损坏 的 。 


5.4.1 Hom FA 


确定 子 句 不 允许 存在 矛盾 表述 。 然 而 ,我 们 可 以 使 用 反 证 法 来 验证 语句 的 简单 扩展 。 

完整 性 约束 Cintegrity constraint) 是 如 下 形式 的 子 句 : 

falsesa, 人 … Na 
其 中 a; BRT, false 是 一 个 在 所 有 的 解释 中 都 为 假 的 特殊 原子 。 

Horn 子 句 (Horn clause) 既 可 以 是 一 个 确定 子 句 ， 也 可 以 是 一 个 完整 性 约束 子 句 。 这 
意味 着 ，Horn 子 句 头 部 可 以 为 false 或 者 是 一 个 一 般 原 子 。 

在 一 个 知识 库 的 所 有 模型 中 完整 性 约束 允许 系统 验证 某 些 原子 的 合 取 为 假 ， 即 验证 原 
子 否 定 的 析 取 为 真 。 回 想 --p Æ p 的 否定 (negation)， 当 p 在 某 个 解释 中 为 假 的 时 候 pW 
A. WA pVqg Æp Sq 的 析 取 (disjunction)， 当 轧 为 真 或 g 为 真 或 二 者 都 为 真 时 ，pVg 
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为 真 。 完 整 性 约束 false<a, 人 人 … Na, BH ESRF oa Vi Va. 

Horn 子 句 知识 库 暗 含 原子 的 否定 ， 如 例 5-16 所 示 。 

【 例 5-16】 考虑 知识 库 KB: 

false<-aN\b 

bac 

在 KB, 的 所 有 模型 中 原子 c 都 为 假 。 如 果 c 在 KB 的 模型 了 中 为 真 ， 那么 a 和 6b 在 I 
中 都 将 是 真 (否则 了 就 不 是 Bi 的 一 个 模型 )。 因 为 在 TI 中 false 是 假 的 ， 而 a 和 五 在 工 中 
是 真 的 ,在 工 中 的 第 一 个 子 句 就 是 假 的 。 这 与 工 为 久 Bi 的 一 个 模型 了 矛盾。 因而 < 在 KB， 
的 所 有 模型 中 都 是 假 的 。 

这 个 可 以 表示 为 : 

KB, Esg 

这 意味 着 ， 在 KB, 所 有 的 模型 中 =c RHA, MA c EKB 的 所 有 模型 中 都 为 假 。 < 

尽管 Horn 子 名 语言 中 不 允许 将 析 取 和 否定 作为 输入 ， 但 是 原子 否定 的 析 取 可 以 被 推 
导出 来 ， 如 例 5-17 所 示 。 

【 例 5-17】 考虑 知识 库 KB: 

false<-a\b 


Æ KB: 的 每 一 个 模型 中 ，c 或 d 之 一 为 假 。 如 果 它 们 在 KB. 的 模型 工 中 都 是 真 的 ， 
那么 a Mo 在 I 中 也 将 是 真 的 。 结 果 就 是 I 中 的 第 一 个 子 句 是 假 的 。 这 与 1 是 KB, 的 模型 
矛盾。 相似 的 ,< 或 e 之 一 在 KB, 中 的 每 一 个 模型 都 将 是 假 的 。 因 而 

KB, cV 7d 

KB, -7cV ve < 

如 果子 句 集 合 没 有 模型 ， 则 其 为 不 可 满足 的 (unsatisfiable)。 如 果 可 以 通过 验证 程序 
从 子 句 中 推导 出 fasle， 那 么 子 句 集合 则 被 证 明 是 不 一 致 的 (inconsistent)。 如 果 验 证 程序 
是 合理 并 且 完 整 的 ， 则 当 且 仅 当 子 句 集合 是 不 可 满足 的 情况 下 ， 子 句 集合 是 不 一 致 的 。 

通常 能 够 为 确定 子 句 集合 找到 一 个 模型 。 对 于 任何 一 个 确定 子 名 集合， 所 有 的 原子 都 
为 真 的 解释 就 是 其 一 个 模型 。 因 此 ， 确 定子 句 知识 库 总 是 可 满足 的 。 然 而 ，Hora 子 句 的 
集合 可 能 是 不 可 满足 的 。 

【 例 5-18] 子 句 集合 {a，false<-a} 是 不 可 满足 的 。 因 而 没有 解释 能 够 使 两 个 子 句 同 
时 满足 。 所 以 a 和 false<-a 在 任意 解释 中 都 不 能 同时 为 真 。 < 

通过 使 用 false 作为 查询 ， 自 项 向 下 和 自 底 向 上 的 过 程 都 能 够 证 明 不 一 致 性 。 这 就 意 
味 着 ， 当 且 仅 当 false 可 以 被 推导 出 来 时 ，Horn 子 句 才 是 一 致 的 。 


5.4.2 假说 与 冲突 


从 矛盾 中 进行 推理 是 一 种 非常 有 效 的 方法 。 对 于 一 些 行为 ， 知 道 某 些 假设 的 组 合 是 不 
一 致 的 这 很 奏效 。 例 如 ， 得 知 计划 中 Agent 想 要 完成 的 行动 的 组 合 是 不 可 实现 的 。 在 设计 
中 知道 一 些 组 件 的 组 合 无 法 协同 工作 也 是 有 实用 价值 的 。 

在 诊断 应 用 中 ， 通 过 对 系统 的 观察 ， 可 以 证 明 某 些 组 件 正常 工作 时 存在 矛盾 。 假 设 我 
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们 考虑 某 一 个 系统 ， 我 们 知道 其 应 当 如 何 工作 ， 而 且 我 们 也 有 一 些 对 该 系统 工作 的 观察 结 
果 。 如 果 系 统 没 有 按照 其 规范 进行 工作 ， 则 诊断 Agent 必须 确定 是 哪个 组 件 出 现 了 错误 。 

为 了 完成 这 项 任务 ， 做 出 可 被 证 明 为 假 的 假设 是 很 有 必要 的 。 

假说 (assumable) 是 在 反 证 法 验证 过 程 中 可 以 被 假设 的 原子 。 反 证 法 验证 可 以 从 假说 
否定 的 析 取 得 到 。 

通过 Horn 子 句 知 识 库 和 明确 的 假说 ， 如 果 系 统 可 以 从 假设 中 验证 矛盾 的 存在 ， 那 么 
系统 能 提取 到 不 可 以 全 部 为 真 的 假设 组 合 。 

.在 确定 子 句 知识 库 中 ， 可 以 使 用 查询 来 询问 某 命 题 是 否 是 该 知识 库 的 结果 。 给 定 一 个 
查询 ， 系 统 可 对 该 查询 构建 验证 。 系 统 试图 通过 反 证 法 验证 false。 作 为 查询 答案 的 一 部 
分 ， 用 户 必须 指出 什么 是 被 允许 的 。 

如 果 KB 是 Horn FARRA, KB 的 冲突 (conflict) 是 一 个 假说 集合 ， 该 集合 对 给 定 
KB#@ false, BSW PAR RIN. PR C={ca，…，cr} 是 对 于 KB 的 一 个 冲突 : 

KBU {ci p sc, } | false 

在 这 种 情况 下 ， 答 案 就 为 : 

KB 上 ”ct VV 

最 小 冲突 (minimal conflict) 是 无 严格 子 集 也 为 冲突 的 冲突 。 

【 例 5-19] 在 例 5-17 中 ,如果 {c，d，e，f，g，h} 是 一 个 假说 集合 ， 那 么 {c，d} 和 
{c，e} 是 对 于 KB, 的 最 小 冲突 ; {c，d，e， 有 也 是 一 个 冲突 ,但 不 是 最 小 冲突 。 < 

在 接 下 来 的 例子 中 ， 通 过 假说 关键 字 来 指明 假说 ， 这 些 关键 字 是 一 个 或 用 去 号 间隔 的 
多 个 假说 原子 。 


5.4.3 ”基于 一 致 性 的 诊断 


对 哪些 在 正常 工作 做 出 假设 ， 推 导出 哪些 组 件 工作 异常 ， 这 是 基于 一 致 性 的 诊断 
(consistency-based diagnosis) 的 基础 。 假 设 缺 陷 (fault) 是 指 在 系统 中 出 现 了 错误 ， 则 通过 
系统 的 模型 和 观察 基于 一 致 性 的 诊断 可 判断 出 可 能 存在 的 缺陷 。 通 过 不 存在 缺陷 的 假说 ， 
可 以 使 用 冲突 来 验证 系统 中 存在 的 错误 。 

【 例 5-20〗 考虑 图 5-2 绘制 、 例 5-5 表述 的 房屋 布线 的 例子 。 适 用 于 基于 一 致 性 诊断 
的 背景 知识 库 在 图 5-8 中 给 出 。 在 子 句 中 加 入 一 般 性 假设 ， 使 组 件 工作 的 假设 变 得 明确 。 
并 且 增 加 以 下 条 件 : 开关 、 电 路 中 断 器 和 灯 都 如 预期 一 样 正 常 工作 。 没 有 对 应 ok 原子 的 
子 句 ， 但 是 可 以 做 出 这 样 的 假说 。 

用 户 可 以 观察 开关 的 状态 和 灯 是 明 或 暗 。 

一 慢 灯 不 可 能 同时 是 明和 了 暗 两 种 状态 。 该 知识 按 下 列 完 整 性 约束 表示 : 

false<dark_l, \ lit_l, - 

falsex-dark_l; A lit_ls 

假设 用 户 观 察 到 所 有 三 个 开关 都 置 上 ， 而 且 hL 和 is 都 是 暗 的 。 那 么 用 以 下 的 原子 语 
名 代表 : 

up_s; 

up_Sz 

up_sa 

dark_l, 

dark_l, 
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light_l, 

light_l, 

liwe_outside 

live_l,<-live_wig 

live_w,<live_w, Nup_ss \ ok_s, 
live_wy+-live_u, \ down_s, \ ok_s: 
live_w,~+live_w, \ up_s, \ ok_s; 
live_w,~-live_w,; A down_s, \ ok_s, 
live lr< live_ tw 

live_w, +- live_w, Nup_ss \ ok_s; 
live_p,~+live_w, 

live_w,=—live_ws, A ok_cb, 
live_p,~<live_u, 

live_w,~live_w, Mok _ ch, 
live_w, live outside 

lit lelight li A live_l, A ok_l, 
lit_lj<tight_l, A livel A ok. 
falsesdark_l, N lit_l, 
false<-dark_t, \ lit_l; 





assumable ok ch ,ok_ch;.0k_s, sok_s: ,ok_s; +ok_l, ,ok_ly 


5-8 il 5-20 的 知识 

给 定 图 5-8 所 示 的 知识 和 观察 值 ， 有 两 个 最 小 冲突 存在 ， 即 

{ok_cbh, yok sisok ss yok } #il{ ok_chy ,ok ss OoR_ ls} 

因此 有 

KB -70k_ch; V tok_s; V ok ss Vok Lh 

KB Emok chi V mok_ ss V “okl 

这 意味 着 chi, ss 52 或 者 中 至 少 有 一 个 组 件 必须 是 不 正常 的 ， MA ch. s3 或 者 l 
中 至 少 有 一 个 组 件 是 不 正常 的 。 a 

给 定 了 所 有 冲突 的 集合 ， 用 户 可 以 通过 系统 诊断 判断 可 能 的 错误 。 然 而 ， 对 于 给 定 的 
冲突 集合 ， 如 果 所 有 的 冲突 都 可 以 通过 几 个 缺陷 解释 ， 那么 常常 很 难 判 定 到 底 哪 里 出 现 了 
错误 。 通 常用 户 想 要 知道 是 否 所 有 冲突 都 可 以 通过 一 个 或 者 两 个 缺陷 来 解释 。 

给 定 一 个 冲突 集合 ， 基 于 一 致 性 的 诊断 是 一 个 假说 的 集合 ， 该 集合 至 少 有 每 个 冲突 中 
的 一 个 元 素 。 最 小 诊断 (minimal diagnosis) 是 没有 其 子 集 也 为 诊断 的 诊断 。， 对 于 其 中 一 个 
诊断 ， 在 建 模 的 过 程 中 它 的 所 有 元 素 必须 为 假 。 

【 例 5-21] 让 我 们 继续 考虑 例 5-20。 由 于 两 个 冲突 的 否定 的 析 取 是 子 句 的 钦 辑 结果 ， 
则 以 下 合 取 

(m0ok ch V “ok_si Vok ss Vok 1)AM( nok ch V 70k_s3 V 7ok_l:) 
是 遵循 知识 库 的 。 这 种 析 取 的 合 取 可 以 分 配 成 析 取 范式 (Disjunetive Normal Form, 
DNF)， 否 定 原子 的 合 取 的 析 取 为 : 

ok cbiV 

(ok si A “ok _ ss)V (Cok si À ~ok_l2) V 

(Tok so N Tok s3)V (mok ss A ok ls)V 

(ok li Tok s3)V (mok lA “ok_lz) 

因此 ， 或 者 是 ch, 是 坏 的 或 者 6 个 双重 错误 中 至 少 存在 一 个 。 

分 离 的 命题 共同 对 应 了 7 个 最 小 诊断 : {ok_chi}, {ok_s,, ok_ss}, {ok_si» ok_lz}, 
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{ok_s;， ok_s3}, {ok sz， ok_lz}, {ok_li,， ok_s3}， {ok_l; ok_lz}. 系统 已 经 被 证 明 这 些 
组 合 中 至 少 有 一 个 一 定 有 错误 。 < 


5.4.4 通过 假设 和 Horn 子 句 推理 


AT Horn 子 句 知识 库 中 寻找 冲突 ， 本 节 将 介绍 自 底 向 上 和 的 自 顶 向 下 实现 方法 。 

1. 自 底 向 上 的 实现 

自 底 向 上 的 实现 是 在 5. 2. 2 节 中 确定 子 句 的 自 底 向 上 算法 的 增强 版 。 

对 于 该 算法 的 修改 为 : 结论 是 成 对 的 
(a, A), Htta BRAT, A 是 一 个 假说 集 ee eee 
合 ， 该 集合 说 明了 a 在 Horn 子 句 知识 库 3: KB; Horn FRA 
KB 的 上 下 文 环 境 中 。 4; Assumables; 可 以 被 假设 的 原子 集合 

最 初 ， 结 论 集合 C 是 {(a，{a}): a 是 假 
说 }。 子 句 可 以 被 用 来 推导 新 的 结论 。 如 果 有 


AP Nb, WATEA | n eA A T ARAR 
都 存在 一 些 A, Mib A) EC W > ieee” 

th, A U UA LR IMAB CH, ER, : select KB REFA Aeb Av Aba” ME 
这 包含 了 原子 子 名 的 情 闹 , Ym=om, |i WEA AU mU A. 
chy (PMAR C 中 。 图 5-9 对 于 这 个 算法 给 : C= CU tA 

出 了 伪 代 码 。 until 没有 更 多 可 能 的 选择 





return (A:(false, A) EC} 


X (false, A) 生 成 时 ， 假设 A 形成 一 个 
冲突 。 5-9 计算 冲突 自 底 向 上 验证 程序 

我 们 使 用 修剪 假设 超 集 的 方法 对 该 程序 进行 细 化 。 如 果 a，Ai) 和 (a，A;) 在 C 中 ， 
HACA, Ala, ADTAM C 中 移 除 或 不 加 入 到 C 中 。 没 有 任何 理由 需要 使 用 额外 
的 假设 来 说 明 Qo 同样 ， 如 果 ( false, Ai ) 和 (a， A;) 在 C 中 ， H A,GA,, 那么 《a， Az) 7J 
以 从 C PER, AA A 和 任何 超 集 ( 包 括 A;) 都 与 给 定子 句 矛 盾 ， 因 此 从 这 样 的 假说 集合 
中 学 习 不 到 任何 知识 。 

【 例 5-22〗 考虑 图 5-8 的 公理 化 形式 ， 讨 论 例 5-20。 

首先 ， 在 图 5-9 算法 中 ，C 有 以 下 值 : 

{Cok Dv{ok L})stok ls{ok la}), cok sir{ok 5s1)), (ok sa, tok_sa})y lok ss» {OR_Ss }) OoR ca » {oR_ch; }), 
(ok_cb, , {ok_cbs }>} 

下 面 展 示 了 在 一 个 选择 序列 前 提 下 加 入 到 C 的 序列 值 ;: 

(live_outside,{}) 

(connected to_ws; ,outside, {}) 

(live ws, {D 

(connected to_wy; sws »{ok_ch,}) 

(live_w,; .{ok_ch,}) 

(up_ss»{}) 

(connected _to_wy, sws » {ok_s3}) 

(live_uwy, »{ok_ch, sok_sa}) 

<connected_to_lz,w,+1}) 

(live_l, ,{ok_cb; yok ss})) 

(light_le»{}> 
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(litl: ,{ok_cb; ,ok_s3 ,ok_l,}) 

(dark_l:,{}) 

(false, {ok_cb, ,ok_s; ,ok ly}) 
因此 ， 知 识 库 草 含 ， 

Tok_ch Vok_ ss V “okl 
其 他 冲突 可 以 通过 后 续 的 算法 找到 。 < 

2. 自 顶 向 下 的 实现 

自 顶 向 下 的 实现 方法 与 图 5-4 注释 描述 的 自 顶 向 下 确定 子 句 类 似 、 除 了 顶层 目标 是 为 
了 证 明 . false， 而 且 验 证 中 所 遇 到 的 假说 不 会 被 证 明 ， 但 是 会 被 收集 起 来 。 

图 5-10 给 出 了 寻找 冲突 的 算法 。 


l: non-deterministic procedure con flictTD(KB,Assumables) 


不 同 的 选择 可 能 会 导致 找到 不 同 的 冲 2; Inputs 


突 。 如 果 没 有 选择 可 用 ， 则 算法 失败 。 0 FSS 
7 Assumables : 可 以 被 假定 的 原子 集合 


【 例 5-23】 考虑 例 5-20 中 所 示 的 
电路 。 对 于 一 个 导致 冲突 的 选择 和 决 | 6 
策 序列 ， 以 下 是 G 的 值 的 序列 ， I e: 





{false} : Gt={ false} 
{dark_l, ,lit_l,} repeat 
flit h} select G PHY a; sa; $ Assumables 
Ae : choose KB 中 以 a; 为 头 部 的 子 句 C 
{light_l slive_l, sokli} . 以 在 C 的 主体 中 的 原子 替代 G 中 的 a， 
{live_l; sokli} 2 until GOAssumables 
{ live_wy »ok_l, } return G 
{live_w »up_se»ak_s: okl) 5-10” 自 顶 向 下 寻找 冲突 的 Horn 子 句 解释 程序 


{live rusyup_ Sirok_ 5 rup_ ss yok ss ,ok_l, } 

{live_ws sok ch yup sis0k sirup_ sssrok sz s0k_l; } 

{live_outside, ok_ch sup_si sok_s; sup _ ssso0k so .ok_l; } 

{ok chi sup_sisok sirup_ ss 0k sosrok_li} 

{ok_ch sok si rup_ so vok_s2 sokli} 

{ok chi ,ok_s; sok ss ,ok li} 

集合 {ok_cb! ，ok_si1，ok_s;，ok_l41}) 作 为 一 个 冲突 返回 。 选 择 使 用 不 同 的 子 句 将 会 导 
致 不 同 的 结果 。 = 


5.5 完备 知识 假设 


当 一 个 数据 库 中 任何 没有 被 阑 明 的 都 为 假 ， 从 意义 上 讲 这 个 数据 库 往 往 是 完备 的 。 

【 例 5-24) 你 可 能 希望 用 户 指出 哪些 开关 是 置 上 的 ， 哪 些 断 路 器 是 坏 掉 的 ， 通 过 上 述 
系统 可 以 推断 出 那些 没有 被 说 明 为 置 上 的 开关 是 置 下 的 ， 没 有 被 说 明 为 坏 掉 的 断路 器 是 正 
常 的。 因此 ， 置 下 是 开关 的 默认 设置 ， 状 态 良 好 是 断路 器 的 默认 设置 。 对 于 用 户 来 说 ， 相 
对 于 指定 哪些 开关 是 置 下 的 和 哪些 断路 器 状态 良好 等 看 似 多 余 的 信息 来 说 ， 使 用 默认 设置 
可 以 很 方便 地 进行 交互 。 为 了 使 用 这 样 的 默认 设置 进行 推理 ， 必 须 假设 一 个 Agent 拥有 完 
全 知识 ， 开 关 的 状态 没有 被 指出 因为 它 的 状态 是 置 下 的 ， 而 不 是 因为 Agent 不 知道 它 是 置 
下 还 是 置 上 的 。 a 

在 之 前 给 出 的 确定 子 句 逻辑 中 ， 不 允许 从 缺失 的 知识 或 者 失败 的 验证 中 得 出 结论 的 推 
导 。 该 逻辑 没有 假设 知识 是 完备 的 。 特 别 是 一 个 原子 的 否定 不 可 能 作为 确定 子 句 知识 库 的 


|191| 
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一 个 逻辑 结果 。 

完备 知识 假设 (complete knowledge assumption) 是 假设 对 于 任何 原子 ， 当 该 原子 为 真 
时 ， 拥 有 该 原子 作为 头 部 的 子 句 覆盖 了 所 有 的 情况 。 基 于 这 种 假设 ， 如 果 Agent 不 能 确定 
一 个 原子 为 真 则 该 原子 为 假 。 这 也 被 称 为 封闭 世界 假设 (closed-world assumption)。 这 可 
以 对 比 于 开放 世界 假设 (open-world assumption)， 开 放 世 界 假设 使 Agent 一 无 所 知 ， 所 以 
无 法 从 缺失 的 数据 库 中 得 到 任何 结论 。 封闭 世界 假设 需要 Agent 知道 该 世界 的 所 有 相关 
知识 。 

一 个 原子 存在 规则 时 ， 假 设 则 是 每 个 原子 的 规则 覆盖 了 原子 为 真 的 所 有 情况 。 特 别 
是 ， 假设 原子 a 的 规则 是 : 


azbh, 


atb, 
其 中 原子 子 句 a 表示 规则 a<-true。 完 备 知 识 假设 意味 着 如 果 在 某 些 解释 中 为 真 ， 那么 
必 有 一 个 b: 在 该 解释 中 一 定 为 真 ; 也 就 是 说 ， 

ab, V = Vb, 

由 于 定义 a 的 子 句 等 价 于 

atb N ee N ba 
该 子 句 的 意义 可 以 视 为 联合 上 述 两 个 命题 ， 即 等 价 于 

ash; V = V ba 
其 中 导读 作 “ 当 上 且 仅 当 ”( 见 图 5-1)。 对 于 & 这 种 等 效 被 称 为 子 句 的 Clark 完备 化 (Clark”s 
completion) 。 一 个 知识 库 的 Clark 完备 化 是 对 于 在 该 知识 库 中 每 一 个 原子 的 完备 。 

Clark 完备 化 意味 着 如 果 对 于 一 个 原子 a 没有 规则 ， 那 么 该 原子 的 完备 是 ae false, 
这 意味 着 a 为 假 。 

【 例 5-25】 考虑 例 5-5 中 的 如 下 子 句 : 

down_s 

up_ss 

live_l,<live_wo 

live wo<—live wh Nup_sz 

live_wy~<live_un \ down_s» 

live_w,<-live_w; Nup_s 
假设 仅 有 以 原子 作为 头 部 的 子 句 ， 且 没有 子 句 up_s: 和 down_ss 。 这 些 原子 的 完备 集 是 

down_s; true 

up_s,+> false 

up_S2,«>true 

down_sz,+> false 

live_l; > live_wy 

live_wy +> Clive_w; \ up_s.) V Clive _w A down_s;) 

live_w;,+>+live_ws \ up_s; 

这 暗示 了 up_si WH. A live_w, AMR. < 

通过 完备 性 ， 系 统 可 以 得 出 否定 的 结论 ， 且 扩展 语言 允许 子 句 主体 中 的 存在 否定 是 很 
有 用 的 。 文 字 (literal) 既 可 以 是 一 个 原子 也 可 以 是 原子 的 否定 。 一 个 确定 子 句 的 定义 可 以 
被 扩展 ， 该 扩展 允许 主体 中 存在 文字 而 不 仅仅 是 原子 。 在 完全 知识 假设 中 ， 记 原子 a 的 否 
定 为 ~~a， 以 此 来 区 别 它 与 并 不 假设 完备 性 的 传统 否定 。 这 种 否定 经 常 被 称 为 否定 即 失败 
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(negation as failure) 。 

基于 和 否定 即 失败 ， 如 果 KB Kg, WER g 是 知识 库 KB 的 结果 ， 其 中 KB' 是 KB 的 
Clark 完备 化 。 在 子 句 主体 或 者 查询 中 的 否定 一 a 在 完备 集中 变 为 "ae。 也 就 是 说 ， 若 查询 为 
基于 完备 知识 假设 下 的 知识 库 中 的 查询 ， 则 意味 着 该 查询 是 该 知识 库 的 完备 集 的 逻辑 结果 。 

[Bj 5-26] 考虑 例 5-5 的 公理 化 。 通 过 用 户 告诉 系统 哪些 开关 是 置 上 的 ， 而 如 果 没 有 
被 告知 哪些 开关 是 置 上 的 ， 则 可 通过 系统 总 结 哪些 开关 是 置 下 的 。 这 种 方法 可 以 更 简单 地 
表示 该 领域 的 知识 。 这 可 以 通过 增加 以 下 规则 实现 : 194 

down_sj~-~up_s; 

down_s,;~-~up_sz 

down_s3<-~up_s; 

同样 ， 除 非 其 被 告知 断路 器 是 坏 掉 的 ， 否 则 系统 可 以 总 结 出 断路 器 是 良好 的 。 

ok_ch,+~broken_cb, 

ok_cb,~-~broken_ch, 

虽然 这 看 起 来 比 之 前 的 表示 更 加 复杂 ， 但 是 这 意味 着 在 一 个 特定 情形 下 用 户 可 以 更 容 
易 地 指明 当前 情况 。 用 户 仅仅 需要 指定 哪些 是 置 上 的 ， 哪 些 是 坏 的 。 如 果 置 下 是 开关 的 党 
态 ， 良 好 是 断路 器 的 常态 ， 这 会 节省 很 多 时 间 。 

为 了 表示 图 5-2 的 状态 ， 用 户 指定 

up_S2 

up_ss 
系统 可 以 推断 ，s 一 定 是 置 下 的 ， 而 且 两 个 断路 器 状态 都 为 良好 。 

完备 知识 库 为 

down_sı > 7up_s; 

down_s.** “up_s: 

down_s;<* “up_s; 

ok_ch, > broken_ch, 

ok_ch, +> >broken_chz 

up_s +> false 

up_s: true 

up_sı true 

broken_ch, +> false 

broken_cb,<> false 

注意 ， 在 子 句 主体 中 但 不 是 任何 子 句 头 部 的 原子 在 完备 集中 都 为 假 。 < 

回想 一 下 ， 若 对 原子 都 分 配 一 个 自然 数 ， 且 子 句 主体 中 的 原子 比 头 部 的 原子 所 分 配 的 数 更 
小 ， 则 称 知 识 库 是 无 环 (acyclic) 的 。 通 过 和 否定 即 失败 ， 非 无 环 知识 库 在 语义 上 就 会 出 现 问题 。 

下 面 的 知识 库 不 是 无 环 的 : 

ax~b 

be~a 

这 个 知识 库 的 数据 库 完 备 集 等 价 于 a<> b, HE a 和 5 所 取 的 真 值 不 同 ， 但 并 未 指 
定 哪 一 个 为 真 。 

下 面 的 知识 库 也 不 是 无 环 的 : 

a<~a 

该 知识 库 的 Clark PARE ao ma， 其 是 逻辑 矛盾 的 。 

对 于 一 个 无 环 知识 库 的 Clark 完备 化 常常 是 一 致 的 ， 且 常 给 出 每 个 原子 的 一 个 真 值 。 
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对 于 本 章 剩 下 的 部 分 ,我 们 假设 知识 库 是 无 环 的 。 
5.5.1 非 单调 推理 


在 某 子 句 加 入 前 所 能 总 结 的 任何 结论 在 加 入 该 子 句 后 仍然 可 以 被 总 结 出 来 ， 加 入 知识 
并 不 减少 可 以 被 导出 的 命题 集合 ， 则 称 该 确定 子 句 逻辑 是 单调 的 (monotonic)，。 

如 果 增 加 了 更 多 的 知识 后 ， 某 些 结论 就 失效 了 ， 则 该 逻辑 是 非 单调 的 Cnommonotonic) 。 
否定 即 失败 的 确定 子 句 的 逻辑 是 非 单调 的 。 非 单调 推理 对 于 表示 默认 设置 是 很 有 效 的 。 默 认 
设置 (default) 是 指 除 被 某 异 常 重 写 外 ， 都 可 使 用 的 规则 。 

比如 ， 如 果 c AA. b 在 一 般 情况 下 为 真 ， 则 知识 库 设 计 者 可 以 编写 如 下 形式 的 规则 ; 

b<c A ~ab, 

Kp, ab, 是 一 个 原子 ， 表 示 面 对 a 的 某 些 表达 时 存在 异常 。 给 定 .<，Agent 可 以 推 基 b, 
除非 它 被 告知 ap. 。 增 加 ab, 到 知识 库 中 可 以 阻碍 结论 5。 含 有 ab, 的 规则 可 以 用 来 阻碍 规 
则 主体 条 件 的 默认 设置 。 

【 例 5-27] 假设 采购 Agent 调查 度假 情况 。 度 假 酒 店 可 以 是 毗邻 海滩 或 者 远离 海滩 。 
如 果 该 度假 酒店 毗邻 沙滩， 知识 提供 者 可 能 会 特别 指出 ， 因 此 可 以 获得 以 下 子 句 : 

away_from_beach+—~on_beach 

如 果 该 Agent 没有 被 告知 酒店 靠近 海滩 ， 则 Agent 可 以 通过 该 子 句 推断 出 酒店 远离 海 
滩 。 

协作 系统 (cooperative system) 试 图 不 产生 误导 。 如 果 被 告知 酒店 在 海滩 上 ， 则 知道 酒 
店 用 户 可 到 达 海 滩 。 如 果 他 们 已 到 达 海 滩 ， 则 期 望 用 户 可 以 在 海滩 上 游泳 。 基 于 此 有 如 下 
默认 设置 ; 

beach_access<-on_beach N ~@Dweoch access 

swim_at_beach=beach_access À ~ GD xuim at beach 

如 果 沙 滩 上 的 酒店 没有 沙滩 通道 或 者 不 可 以 游泳 ， 那 么 协作 系统 将 会 告知 。 我们 也 会 
指出 ， 如 果 存 在 一 个 封闭 海湾 或 者 大 城市 ， 则 就 不 可 以 游泳 ， 通 过 默认 设置 定义 如 下 : 

AD wines beach enclosed bay Nbig_city N ~ aby, nvimming_ mrity 

可 以 说 不 列 颠 哥伦比亚 对 于 靠近 城市 游泳 是 异常 的 ， 则 

QD wo miming maray in BC salac teaches 

仅 鉴于 前 面 给 定 规则 ，Agent 推断 away_from_beach。 如 果 接 下 来 被 告 之 其 on_beach, 
亦 可 以 推断 其 不 会 away_from_beach， 但 是 可 以 推断 其 beach_access 并 且 swim_at_beach。 如 
果 其 也 被 告知 了 enclose_bay 和 big_city， 则 其 就 不 会 被 推断 swwim_at_beach。 然 而 ， 如 果 其 接 
下 来 被 告知 in BC, IAT ARE swim_at_beach。 

通过 对 正常 情况 下 赋予 默认 设置 ， 用 户 可 以 通过 告诉 其 什么 是 异常 的 来 与 系统 进行 交 
互 ， 这 在 通信 中 非常 经 济 。 用 户 不 必 对 明显 的 事物 进行 陈述 。 本 

非 单调 性 推理 的 一 种 思考 方式 是 进行 变 元 Cargument)。 规 则 可 以 被 用 来 作为 论证 的 组 
件 ， 对 和 否定 异常 给 出 了 一 种 削弱 论证 的 方式 。 注 意 ， 在 提出 的 语言 中 ， 只 有 已 存在 的 正面 
论证 可 以 被 前 弱 。 在 更 泛 化 的 理论 中 ， 正 面 论证 和 负面 论证 可 以 互相 攻击 。 


5.5.2 完备 知识 的 验证 程序 


1. 自 底 向 上 程序 
否定 即 失 败 的 自 底 向 上 程序 是 对 确定 子 句 自 底 向 上 程序 的 修改 。 区 别 是 它 可 以 在 被 导 
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出 的 结果 集合 C 中 加 入 形 如 一 zp 的 文字 ， 当 可 以 确定 一 定 失 败 时 ， 可 以 将 一 p 加 入 
C 中 。 

失败 可 以 递归 地 进行 定义 当 以 p 为 头 部 的 子 句 的 每 个 主体 都 失败 时 则 pp 是 失败 的 。 
如 果 主 体 中 有 一 个 文字 是 失败 的 ， 则 该 主体 是 失败 的 。 如 果 已 经 导出 一 到 ， 则 主体 中 的 原 
Fb 是 失败 的 。 如 果 已 经 导出 b;， 则 主体 中 的 否定 一 5; 是 失败 的 。 

图 5-11 对 于 KB 的 计算 结果 ,给 出 





了 一 个 自 底 向 上 香 定 即 失败 的 解释 程 | 2 m D 
序 。 注 意 这 包含 了 子 锯 的 主体 为 空 的 情 。 | 3 KB 可 以 和 人 而 定 妈 失 政 的 了 和 集合 
况 ( 其 中 m=0, 并 且 在 头 部 的 原子 被 加 = 产生 于 KB 的 完备 集 的 文字 集合 


AT CH), 而 且 存 在 茶 一 原子 并 没有 6: Local 








出 现在 任何 一 个 子 名 的 头 部 的 情况 (这 | 5 ERA 
种 情况 中 9 其 否定 被 加 入 C 中 ) © 9: repeat 
Lø 5-28] 考虑 如 下 子 句 : 1O; either 
11; select rE 天 万 ,满足 
p~qA~r 12; rE eb No Nb,” 
pes 13; 对 于 所 有 i,5:EC, 且 
Ge 14, h&c 
AE 15; C:=CU {h} 
16; or 
t 17; select h, WE ~hEC H 
sw 18: 其 中 每 一 个 子 句 “<-5 A Aba” EKB 
其 次 是 一 组 加 入 C 中 的 可 能 文字 序列 Bea WERE bs ~b EC 
20; 或 者 菜 个 b= 二 ~g 且 gEC 
21: C:=CU {~h} 
~r, 22; mti 没有 更 多 的 可 选 原子 





图 5-11 自 底 向 上 和 否定 即 失败 验证 程序 


p» 
其 中 ， 由 于 + 上 是 作为 原子 子 句 给 定 的 ， 所 以 i 是 平凡 导出 的 ; HCCC, Fior, 由 于 没 
有 子 句 包 ， 导 出 ~ 一 w， 所 以 在 图 5-11 第 18 行 “每 一 个 子 句 ”的 条 件 平凡 持 有 。 由 于 
一 wEC， 导 出 文字 一 s; 由 于 主体 全 部 被 证 明了 ， 导 出 pp 和 9g。 < 

2. 自 顶 向 下 的 否定 即 失 败 程序 

对 于 完备 知识 假设 的 自 顶 向 下 程序 通过 否定 即 失败 产生 。 这 与 图 5-4 自 顶 向 下 确定 子 句 
验证 程序 相似 。 这 是 一 个 非 确定 性 程序 ， 其 可 以 通过 搜索 成 功 的 选择 来 实现 。 当 选择 了 一 个 
否定 原子 ~~a， 则 对 于 原子 a 的 一 个 新 的 验证 就 开始 了 。 如 果 对 于 a 验证 失败 了 ， 则 一 <“ 成 
H. WRF a 的 验证 成 功 了 ， 则 算法 失败 ， 必 须 进行 其 他 的 选择 。 算 法 如 图 5-12 所 示 。 

【 例 5-29】 考虑 例 5-28 的 子 句 ， 假 设 查询 是 ask p。 

初始 化 G={p}. 

使 用 对 于 p 的 第 一 条 规则 ，G 变 为 {@， 一 ”}。 

选择 g， 并 将 它 与 第 三 条 规则 的 主体 蔡 换 ，G 变 为 (一 5， 一 r)} 。 

接 下 来 选择 ~*， 并 开始 验证 so WE s 失败 ， 因 此 G 变 为 {一 r}。 

接 下 来 选择 一 r*>， 并 开始 验证 *。 对 于 验证 ”> 有 子 目 标 一 与 因此 需要 尝试 验证 上 +。 对 
于 zt 的 验证 成 功 。 因 此 对 于 ~t 的 验证 失败 ， 由 于 对 于 7 没有 更 多 的 规则 ， 则 对 7 的 验证 失 
We. 因此， 对 于 ~ 的 验证 成 功 。 


197 


200 
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G- 为 空 ， 所 以 为 顶层 查询 返回 yes. < 

注意 这 实现 了 有 限 失败 (finite failure) ， 因 为 如 果 验 证 程序 没有 停止 ， 则 其 就 没有 结 
论 。 比 如， 假设 存在 一 个 规则 p-p. ask p 的 查询 就 不 能 停止 。 完 整 性 pop 没有 给 出 任 
何 信 息 。 即 使 可 能 存在 一 种 方法 得 出 永远 不 会 有 p 的 验证 ， 但 由 于 其 并 没有 遵循 完备 性 ， 
合理 的 验证 程序 也 不 能 得 出 一 志 的 结论 。 


1: non-deterministic procedure NAFTD(KB,Query) 
Inputs 
天 了 3: 可 以 包含 否定 即 失 败 的 子 句 集合 
Query: 需 要 验证 的 文字 和 集合 


Output 

WR KB 的 完整 性 蕴含 Query 返回 yes ,否则 返回 no 
Local 

G 是 一 个 文字 集合 
G :=Query 
repeat 

select 文字 LEG 

让 /是 一 a 的 形式 then 

if NAFTD(KB,a) 4M then 
Git=G\{L} 


choose KB p FAJ /<-B 
£ GHAB ER 
until G={} 
return yes 
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5.6 MAR 


溯 因 推理 (abduction) 是 一 种 推理 的 形式 ， 其 中 假设 是 用 来 解释 观察 的 。 比 如 ， 如 果 
Agent 观察 到 某 些 灯 没有 工作 ， 则 其 可 以 推测 在 该 世界 中 发 生 了 什么 来 解释 为 什么 灯 没 有 
工作 。 在 智能 教学 系统 中 ， 可 以 尝试 通过 学 生 所 理解 的 知识 和 其 不 理解 的 知识 ， 解 释 为 什 
么 学 生 给 出 了 那样 一 些 答案 。 

淹 因 推理 一 词 是 由 Peirce(1839 一 1914) 提 出 的 ， 用 于 使 这 种 推理 类 型 区 别 于 演绎 和 归 
纳 。 演 绎 (Cdeduction) 是 确定 哪些 命题 是 逻辑 跟随 于 一 组 公理 ， 而 归纳 (Cinduction) 则 是 从 倒 
子 中 推断 一 般 性 关系 。 

EWAH, Agent 基于 其 观察 到 的 情况 推测 哪些 内 容 可 能 是 正确 的 。Agent 确定 
其 观察 所 蕴含 的 内 容 当 何 种 可 能 为 真 时 会 使 得 观察 为 真 。 观 察 是 隐 含 于 矛盾 之 中 的 
《因此 了 矛盾 逻辑 草 含 所 有 )， 所 以 我 们 希望 从 我 们 的 观察 的 解释 中 找到 矛盾 。 

为 了 形式 化 滴 因 推理 ， 我 们 使 用 Horn 子 句 和 假说 (与 反 证 法 证 明 使 用 相同 的 输入 )。 
给 出 了 系统 : 

。 知识 库 KB， 是 一 个 Horn 子 句 的 集合 。 

。 假说 (assumable) 原 子 集合 A， 假 说 是 假设 的 基础 。 

不 将 观察 加 入 知识 库 ， 而 是 需要 解释 观察 。 

(KB, A)R (scenario RAMFRH, 使 得 KBU 瑟 是 可 满足 的 。 如 果 一 个 模型 
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存在 ， 且 其 中 每 一 个 KB 的 元 素 和 H 的 每 一 个 元 素 都 是 真 的 ，KBUH 就 是 可 满足 的 。 如 
果 日 的 所 有 子 集 都 不 是 KB 的 冲突 ; 则 KBU HH 就 是 可 满足 的 。 

对 于 在 (KB，A) 中 的 命题 g 的 解释 (explanation) 是 一 个 情景 ， 该 情景 与 KB 一 起 实现 g. 

也 就 是 说 ， 对 于 命题 g 的 解释 是 一 个 集合 瓦 ，HSA 使 得 

KBUH Kg 

KBUH false 

X F(KB, AH, WR H ÆIKB, AP g 的 解释 ， 且 没有 一 个 严格 瓦 的 严格 子 集 
仍然 是 (KB，A) 中 的 g 的 解释 ， 那 么 H Eg 的 最 小 解释 (minimal explanation). 

【 例 5-30】 作为 一 个 诊断 助手 ， 考 虑 下 面 的 简单 知识 库 和 假设 : 

支气管 类 < 流感 

支气管 炎 <- 吸 烟 

咳嗽 < 支气管 炎 

气喘 < 支气管 炎 

发 烧 一 流感 

ee, Hi i È 

假 二 吸烟 信 非 吸烟 者 

RE: Re ER GS. RE 

如 果 Agent 观察 到 气喘 ， 有 两 种 最 小 解释 : 

{ 流 感 } 和 { 吸 烟 } 

这 些 解释 隐 含 了 支气管 炎 和 咳嗽 。 

如 果 观 察 到 了 气喘 人 和 人 发烧， 则 具有 一 个 最 小 解释 : 

{流感} 

另 一 个 解释 在 最 小 解释 中 就 不 再 需要 了 。 

注意 ， 当 观察 到 气喘 时 ，Agent 推理 一 定 是 支气管 炎 ， 并且 流感 和 吸烟 是 假设 的 罪魁 
wa. 然而， 如 果 也 观察 到 了 发 烧 ， 则 病人 一 定 是 得 了 流感 ， 所 以 就 没有 必要 假设 其 吸 
烟 ， 它 已 经 被 解释 消除 (explained away) 了。 

如 果 观 察 到 的 是 气 嘴 八 非 吸 烟 者 ， 那 只 有 一 种 最 小 解释 : 

{流感 , 非 吸 烟 者 } 
男 一 个 气喘 的 解释 与 非 吸 烟 者 这 个 条 件 不 一 致 。 可 

基于 行为 的 观察 来 确定 在 系统 内 部 将 会 发 生 的 事情 是 诊断 Cdiagnosis) 或 确认 Crecogni- 
tion) 问 题 。 在 滴 因 诊断 (abductive diagnosis) 中，Agent 猜测 疾病 、 障 碍 和 正常 工作 的 部 
件 来 解释 所 观察 到 的 症状 。 这 与 基于 一 致 性 的 诊断 不 同 ， 在 一 致 性 诊断 中 设计 者 不 仅 对 正 
常 行为 建 模 也 对 错误 行为 建 模 ， 观 察 被 用 来 解释 而 不 是 加 入 知识 库 中 。 由 于 知识 库 必 须 可 
以 实际 地 证 明 观察 ， 淹 因 推 理 诊断 需要 更 加 细致 地 建 模 并 且 给 出 更 加 详细 的 诊断 。 它 也 多 
许 Agent 来 诊断 没有 正常 表现 的 系统 。 比 如 ， 一 个 智能 教学 系统 中 ， 通 过 观察 学 生 的 行 
为 ， 该 教学 系统 可 以 推测 出 哪些 知识 学 生理 解 了 ， 哪 些 没有 理解 ， 这 可 以 引导 教学 系统 的 
行为 。 

溯 因 推理 也 可 以 用 来 进行 设计 (design)， 需要 进行 解释 的 事物 是 该 设计 的 目标 ， 而 假 
说 则 是 该 设计 的 基石 。 这 种 设计 就 是 一 种 解释 。 一 致 性 意味 着 设计 是 可 行 的 。 设 计 目 标 意 
味 着 该 设计 达到 了 预期 设计 目标 。 

(615-31) 考虑 图 5-2 中 的 电气 领域 系统 。 与 在 例 5-20 中 提出 的 一 致 性 诊断 例子 的 表 
示 一 样 ， 公 理化 可 能 在 系统 中 发 生 的 假设 。 在 溯 因 诊断 中 ， 必须 公 理化 既 从 缺陷 又 从 一 般 


202 


134 第 二 部 分 表达 和 推理 


性 推理 两 个 方面 得 出 的 内 容 。 对 于 每 一 个 可 以 被 观察 的 原子 ， 都 需要 公理 化 其 是 如 何 产生 
的 。 在 接 下 来 的 例子 中 ,假说 原子 使 用 “假说 "关键 字 内 联 声明 。 

用 户 可 以 观察 是 明 或 者 瞳 ， 我 们 必须 表示 出 公理 化 系统 中 使 该 观察 为 真 的 规则 。 如 
果 它 状态 良好 且 有 电力 供应 ， 则 灯 h 是 明 的 。 如 果 灯 是 坏 的 或 者 没有 电 ， 则 其 为 暗 的 。 系 
统 可 以 假设 h 是 好 的 或 者 坏 的 ， 但 是 不 能 两 个 同时 假设 : l 

lit_l,<-live_wy Nok ll 

dark li<-broken li 

dark_l,<-dead_wv» 

assumable ok 六 

assumable broken_l, 

false<-ok_l, A broken_l, 

电线 w 是 通路 或 者 断路 基于 开关 的 位 置 和 进入 的 电线 是 通 或 者 断 : 

live_tw «live _w, Nup_s: Nok_ss 

live_wy<-live_w, \ down_sz Nok_sz 

dead_wo<—broken ss 

dead_wo<-up_ss A dead_w, 

dead_uy~«dowmn_s; 人 cead rz 

assumable o& sz 

assumable broken_s2 

false<-ok_s2 N broken_sz 

同样 可 以 公理 化 其 他 的 电线 。 一 些 电线 依赖 于 断路 器 是 正常 的 或 是 损坏 的 : 

live_w,<-live_ws; | ok_cb; 

dead_w,~<-broken_cb, 

dead_w,~<-dead_ws ` 

assumable ok_cb, 

assumable broken_ch, 

falsex-ok_cb; A broken_ch, 

对 于 这 个 问题 的 剩余 部 分 ,我 们 假设 其 他 的 灯 和 电线 也 类 似 的 表示 。 

外 部 的 电源 可 以 是 通 的 ， 也 可 以 是 断 的 : 

live_w;~<—live_outside 

dead_ws;~<-outside_power_down 

assumable live_outside 

assumable outside_power_down 

false<live_outside À outside_power_down 

开关 可 以 假设 为 置 上 或 置 下 ; 

assumable up_s; 

assumable down_s; 

false=up_s; A down_sj 

对 于 lit _4 有 两 种 最 小 解释 ; 

{ live_outside,ok_ch, ,ok_l, ,ok_s; ,ok_s2 ,up_s; up ss} 

{down_s; down ss ,live_outside,ok_cb, yok_l; yok_s, ,ok_s2} 

在 设计 阶段 可 以 看 出 ， 作 为 一 种 保证 灯 是 亮 的 方法 : 把 两 个 开关 都 置 上 或 者 两 个 都 置 
下 ， 并 保证 所 有 的 开关 都 正常 工作 。 如 果 Agent 观察 到 L 为 亮 的 ， 可 用 该 方法 确定 发 生 
的 事情 。 上 述 两 种 情况 都 必须 满足 。 
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对 于 dark_l, 有 10 种 最 小 解释 : 

{ broken_l, } i 

{broken_s, } 

{down_sisup_s2} 

{broken_sı sup_s2) 

- {broken_ch; sup_sı rup_ ss)} 

{outside_power_down,up_s; ,up_sz} 

{down_sz,up_s} 

{broken_s, down so} 

{broken_ch, ,down_s; ,dowwn_s»} 

{down_s, »down_s: ,outside_power_down)} 

对 于 dark_l, A lit_l, 有 6 种 最 小 解释 ; 

{broken_l, ,live_outside,ok_ch, ,ok_lz sok ss ,up_ss} 

{broken sz ,live_outside,ok_ch, yok lo ,ok_s3 sup_ 33} 

{down_si ,live_outside,ok_ch, yok 12 ,ok_s3 sup_s2 suUup_ss)} 

{broken_s; slive outsidesok_ ch sok_lz yok_s3 sup_ so sup_ ss} 

{down_ so slive aoutsidesok chisok lssok ss sup_sirup ss} 

{broken_s; sdown ss» ,live_outside,ok_ch; yok ls yok ss up_ss} 

注意 解释 不 能 包括 outside_power_down 或 者 broken_cbi， 因 为 它们 对 于 解释 L 是 明 
状态 来 说 是 矛盾 的 。 < 

漳 因 推理 也 可 使 用 基于 假设 推理 的 Horn 子 句 中 自 底 向 上 和 自 顶 向 下 的 实现 方法 。 
图 5-9 的 自 底 向 上 的 实现 方法 计算 C 中 每 一 个 子 句 的 最 小 解释 。 也 可 以 使 用 在 之 前 已 经 讨 
论 的 修剪 方法。 自 项 向 下 实现 可 以 通过 使 用 相同 的 编码 和 知识 库 产生 蔬 盾 来 找到 所 有 g 的 
解释 ， 证明 g 而 不 证 明 false 。g 的 最 小 解释 是 最 小 假说 集合 ， 该 假说 集合 被 收集 用 于 证 
WA g 为 非 冲突 子 集 。 


5.7 因果 模型 


原始 (Primitive) 原 子 是 当 其 为 真 时 ， 标 记 为 原子 子 句 的 原子 。 导 出 (derived) RP RY 
其 为 真 时 ， 使 用 规则 来 定义 的 原子 。 特 别 地 ， 设 计 者 为 导出 原子 定义 公理 并 且 希 望 用 户 来 
指出 哪些 原始 原子 是 真 的 。 因 此 ， 导 出 原子 会 从 原始 原子 和 其 他 可 以 被 导出 的 原子 中 推导 
出 来 。 

Agent 的 设计 者 必须 在 设计 一 个 领域 知识 库 时 做 出 很 多 决定 。 比 如 ， 考 虑 两 个 都 为 真 
的 命题 ，a 和 28。 对 于 如 何 定义 它们 有 很 多 种 选择 。 设 计 者 可 以 指定 < 和 都 是 原子 子 句 ， 
并 都 作为 原始 原子 。 设 计 者 也 可 指 指定 a 为 原始 原子 , 5 为 导出 原子 ,标记 a 为 原子 子 句 
并 给 定 规则 5<-a。 另 外 ， 设 计 者 可 以 指定 原子 子 句 5 和 规则 a<-b5， 将 5 作为 原始 原子 ,a 
作为 导出 原子 。 这 些 表达 都 是 多 辑 等 价 的 ， 它们 不 能 从 人 逻辑 上 被 区 分 。 然 而 ， 在 当知 识 库 
改变 的 时 候 它们 会 产生 不 同 的 效果 。 假设 a 对 于 一 些 推理 来 说 不 再 是 为 真 ， 在 第 一 和 第 三 
种 表示 中 ，4 将 仍然 会 是 真 ， 但 在 第 二 种 表示 中 。 就 不 再 是 真 了 。 

因果 模型 (causal model) 或 者 是 具有 因果 关系 (causality) 的 模型 ， 是 某 一 知识 域 的 表 
示 ， 其 可 以 预测 干预 的 效果 ,干预 (intervention) 是 指 对 某 一 变量 强制 赋予 一 个 特殊 的 值 ， 
也 就 是 说 ， 在 模型 中 干预 可 以 不 利用 其 他 变量 而 改变 值 。 

为 了 预测 干预 的 效果 ， 因 果 模 型 表示 了 原因 如 何 蕴 含 它 的 效果 。 当 原因 被 改变 时 ,二 


203 


204 


136 第 三 部 分 表达 和 推理 


预 的 效果 会 改变 。 证 据 模型 (evidential model) 展示 了 领域 知识 的 另 一 个 方向 一 一 从 效果 到 
原因 。 注 意 我 们 不 是 假设 一 个 效果 存在 原因 ， 而 是 有 很 多 联合 的 命题 使 得 效果 为 真 。 

[B] 5-32] 考虑 图 1-8 描绘 的 电气 系统 。 在 这 个 系统 中 ， 开关 s 是 置 上 的 且 灯 L BS 
的 。 有 很 多 种 方法 可 以 公理 化 这 个 系统 。 例 5-5 包括 了 如 下 因果 规则 ; 

lit ls<—up_ss MN live_wy 

此 外 ， 我 们 可 以 指定 证 据 方向 : 


up_s3<-lit_l, 





live_w;<—-lit_l, 
系统 中 的 所 有 陈述 都 为 真 。 
有 人 通过 一 些 模 型 外 部 的 设备 (而 不 是 通过 翻转 开关 ) 将 s 点 亮 ， 我 们 就 不 会 推理 出 开关 作 
为 副作用 而 被 置 上 。 a 
[B] 5-33] 考虑 图 1-8 描述 的 电气 系统 。 下 面 的 命题 描述 了 关于 开关 5、s5s MTL ZS 
间 的 不 变 关系 ， 假 设 所 有 组 件 都 工作 正常 : 
up_ (lit lerup_ ss) (5-1) 
这 个 公式 是 指 三 个 命题 之 间 的 对 称 关 系 ， 当 且 仅 当 有 奇数 个 命题 为 真 时 ， 公 式 为 
真 。 然 而 在 现实 世界 中 ， 这 些 命题 之 间 的 关系 是 不 对 称 的。 假设 在 某 一 状态 下 所 有 的 原 
子 都 为 真 。 令 si 置 下 ， 并 不 能 使 得 9 ETHEL AR. WME 将 s1 BRAS lith 为 
假 ， 而 up_s; 会 保持 不 变 。 因 此 ， 为 了 预测 干预 的 结果 ， 我 们 需要 比 上 面 式 5-1 更 多 的 
命题 。 
因果 模型 为 : 
lit_h<up_s Aup_s: 
lit_l<~up_s, \ ~up_s» 
完成 这 个 命题 等 价 于 式 (5-1)， 然 而 ， 当 其 中 一 个 值 变化 时 ， 它 可 以 进行 合理 的 预测 。 
up_s<lit li Aup_s: . 
up_s)~+-~lit_h N ~up_se 
3X A DA ASR RRR REG s ALET 5 的 位 置 和 是 否 L 是 点 亮 的 问题 。 其 完整 
性 等 春 于 式 (5-1)。 然 而 ， 它 并 不 准确 地 预测 干预 的 结果 ， 4 
因果 模型 (causal model) 和 包括 ; 
。 背景 变量 (background variable) KS, w e AAI AE E exogenous variable), 
是 由 外 部 模型 影响 来 确定 的 ; 
。 FASB (endogenous variable) 集 合 ， 其 作为 模型 的 一 部 分 来 确定 ; 
* 函数 集合 ， 每 一 个 内 因 变 量 对 应 一 个 函数 ， 其 指定 内 因 变 量 如 何 由 其 他 内 因 变 量 
和 外 因 变 量 来 确定 的 。 变 量 X 的 函数 称 为 X 的 因果 机 制 (causal mechanism), $ 
组 函数 对 于 每 一 个 为 背景 变量 的 赋值 必须 有 了 唯一 解 。 
当 变 量 是 命题 的 时 候 ， 对 于 一 个 命题 的 函数 可 以 被 指定 为 将 其 作为 头 部 的 子 句 集合 
(基于 完备 知识 假设 ) 。 知 识 库 是 无 环 的 情况 下 可 以 得 到 唯一 的 解 ， 
[B] 5-34] 在 例 5-33 中 ， 式 5-1 可 以 作为 lith 的 因果 机 制 。 这 可 以 通过 规则 Liz_4 
在 该 模型 的 头 部 指出 。 对 于 wp_s 和 wp_ss 会 有 其 他 的 因果 机 制 ， 或 者 在 该 模型 中 可 能 它 
们 会 是 背景 变量 而 不 受 系统 控制 。 a 
干预 (intervention) 是 通过 一 些 机 制 将 变量 X SR RA AE E o 而 不 改变 模 
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型 中 的 其 他 变量 。 可 以 通过 将 因果 机 制 X 蔡 换 为 X= 二 v， 来 观察 干预 的 结果 。 为 了 干预 强 
fil p HA. 需要 将 源 于 p OF DERRY p 的 原子 子 句 。 为 了 干预 强制 命题 p 为 假 ， 需 要 
BR p HFA. 

如 果 背 最 变量 的 值 未 知 ， 背 景 变 量 可 以 通过 假说 表示 。 观 察 可 以 通过 两 个 阶段 来 实现 : 

1) 潮 因 推理 通过 背景 变量 来 解释 观察 

2) 通过 预测 来 观察 解释 的 后 继 。 

显然 ， 在 给 定 观察 时 滴 因 推理 告诉 我 们 世界 是 什么 样 的 ; 在 给 定 世 界 是 怎样 的 情况 
下 ， 预 测 告诉 我 们 行为 的 结果 是 什么 。 


5.8 本 章 小 结 


。 在 一 个 系统 中 ， 当 不 确定 性 或 模糊 性 不 存在 时 ， 确 定子 句 知识 库 可 以 用 来 指定 某 个 领域 的 原子 子 
句 和 和 规则。 

。 给 定 一 组 关于 某 领域 的 事实 集合 ， 逻 辑 推 理 刻画 了 为 真 的 事实 。 

。 一 个 合理 且 完 备 的 验证 程序 可 以 用 来 确定 知识 库 的 姑 辑 推理 。 

。 可 以 使 用 反 证 法 来 从 Horn 子 名 知识 库 中 获得 推论 。 

。 在 知识 是 完备 的 情况 下 (例如 ， 基 于 完备 知识 假设 )， 可 以 使 用 否定 即 失 败 方法 。 

+ 潮 因 推理 可 用 来 解释 观察 。 

。 因 末 模型 可 以 预测 干预 的 效果 。 


5.9 参考 文献 及 进一步 阅读 


本 书 使 用 的 命题 逻辑 的 语义 是 由 Tarski[1956] 提 出 的 。 对 于 逻辑 的 介绍 中 ， 对 信息 的 概括 请 参看 
Copi[1982]， 对 更 多 形式 化 的 方法 请 参看 Enderton[1972] 和 Mendelson[1987] 二 人 的 研究 内 容 ，Bell 和 
Machover[1977] 等 人 研究 了 进一步 的 问题 。 对 于 在 人 工 智 能 中 使 用 逻辑 的 深入 讨论 请 参阅 ( TLE 
辑 编程 手册 》(Handbook of logic in Artificial Intelligence and logic Programming[ Gabbay, Hogger 和 Rob- 
inson，1993]) 。 

Levesque[ 1984] 描 述 了 基于 询问 的 知识 库 的 方法 。 

Kleer，Mackworth，Reiter[ 19921 形 式 化 了 基于 一 致 性 的 诊断 。 

逻辑 与 Horn 子 句 推理 的 众多 基础 是 在 丰富 的 逻辑 内 容 下 发 展 起 来 ， 这 部 分 内 容 将 在 第 12 BTA 
述 ， 对 其 的 研究 是 基于 有 逻辑 编程 (ogic prograrmming) 进 行 的 。Robinson[1965] 扩 展 了 推理 理论 。Colmer- 
auers Kanoui，Roussel，Pasero[1973] 等 人 和 Kowalski[ 1974] 基 于 Green[ 1969]. Hayes1973]. Hewitt 
[1969] 等 人 的 前 期 工作 ， 提 出 了 SLD 推理 。van Emden，Kowalski[1976] 等 人 提出 了 不 动 点 语义 。 逻 辑 
编程 中 关于 语义 和 性 能 的 更 多 细节 可 以 参看 -LloydL1987] 的 研究 。 

对 于 和 否定 即 失 败 的 工作 是 基于 Clark[1978] 的 工作 展开 的 。Apt 和 Bol[1994] 总 结 了 使 用 不 同 技术 和 
否定 即 失 败 的 方法 来 处 理 问题 。 自 底 向 上 否定 即 失败 的 验证 程序 的 基础 是 Doyle[1979] 的 真 值 维护 系统 
(truth maintenance system), Doyle 也 考虑 了 增加 或 者 移 除 子 句 的 情况 ， 见 习题 5.15。 而 McCarthy 
L1986] 提 倡 使 用 默认 设置 推理 的 异常 方法 。 

在 本 书 中 所 阐述 的 湖 因 推理 框架 是 基于 de Kleer[1986] 等 人 提出 的 基于 假设 的 真 值 维护 系统 CATMD 
和 [Poole、Goebel 和 Aleliunas，1987] 提 出 的 理论 发 展 的 。 潮 因 推 理 已 经 被 用 于 诊 汤 [Peng 和 Reggia, 
1990]、 自 然 语言 理解 CHobbs、stickel、Appelt 和 Martin，1993] 和 时 序 推理 [Shanahan，1989] 等 方面 。 
Kakas, Kowalski 和 Toni[1993] 以 及 Kakas 和 Denecker[ 2002 | A xf 3H A HE BE REFT T Ei. XT Peirce 
的 工作 的 总 结 可 以 参看 Burch[2008] 的 研究 内 容 。 

Dung[L1995] 针 对 论证 提出 了 一 个 抽象 的 框架 。 该 框架 为 本 领域 中 的 许多 工作 提供 了 基础 .~Dung、 
Mancarella 和 Toni[2007] 提 出 了 一 种 最 近 论 证 框架 。chesnevar、Maguitman 和 Loui[2000] 以 及 Besnard 
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和 Hanter[2008] 也 致力 于 有 关 论 证 的 工作 。 

de KleerL1986] 使 用 了 基于 ATMS 的 自 底 向 上 Hor 实现 方法 寻找 解释 。ATMS 是 一 种 更 加 复杂 的 
方法 ， 其 考虑 了 子 句 和 假说 的 增加 问题 ， 而 我 们 忽略 了 这 个 问题 (见习 题 5. 16) 。 

Pearl[ 2000] 以 及 Spirtes、Glymour 和 Scheines[2000] 讨 论 了 因果 模型 。 


5.10 习题 


本 章 习题 使 用 AILog 系统 ， 它 是 一 种 简单 的 逻辑 推理 系统 ， 可 以 实现 在 本 章 中 讨论 的 所 有 推理 ， 
AlLog 系统 可 以 从 本 书 的 网 站 获得 。 
51 假设 我 们 想 要 在 电气 领域 中 ， 对 将 一 个 电 水 壹 插入 电源 插座 中 的 系统 进行 推理 。 假 设 电 水 壶 为 了 进 
行 加 热 ， 必 须 插 入 一 个 电源 插座 中 ， 其 必须 打开 ， 而 且 必 须 将 水 装 和 其中。 
使 用 AILog 语法 ， 写 下 使 得 系统 确定 电 水 壹 是否 在 加 热 的 公理 。AILog 对 于 电力 环境 的 编码 方式 
可 以 从 本 书 网 站 获得 。 
你 必须 : 
。 给 出 所 有 预计 使 用 的 符号 的 解释 。 
。 写 出 可 以 在 AILog 中 加 载 的 子 句 。 
*。 展示 出 AILog 中 运行 得 到 的 知识 库 。 
5.2 考虑 图 5-13 所 描述 的 房间 水 管 系统 。 
TEX PAF HF, pi, b 和 ps 表 示 为 冷水 管 , hs HAM ts BAKER, di. di 和 ds 表示 排水 管 ， 
shower FRU» bath KRM, sink RIIK, floor RIR. E 5-13 给 出 了 符号 的 意义 。 





图 5-13 房间 水 管 系统 


假设 我 们 有 如 下 的 原子 ， l 
* WR p; 中 有 干线 压力 ， 则 pressurized_pi HH. 
bg 如 果 水 龙头 tt 打开， 则 ont; AH. 
。 如 果 水 龙头 关闭， 则 off_s HH. 
， WR > AH. M wet_5 HA TWeKM, Ba MAW. 
。 MRKRAKE po M flow p AH. 
。 WRK, N plugged_sink AK. 
。 WRB MRE, M plugged_bath 为 真 。 
。 如 果 水 槽 未 被 塞 住 ， 则 unplugged_sink HH. 
。 如 果 浴 人 向 未 被 堵塞 ， 则 unplugged_bath HA. 
IFRA] i M ct, 是 打开 的 并 且 浴 红 未 被 塞 住 ， 那么 表示 如 何 将 水 从 dy 排水 管 排除 的 确定 


5.3 


5. 4 
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子 句 公理 化 如 下 : 


pressurized_pi 


pressurized_ps<-on ti N pressurized_pi 

flow shower<—on ts A pressurized_ps 

wet_ bath<— flow_shower 

flow ds<—wet bathN\unplugged_ bath 

filow di<—flow d; 

on_ti 

on_tz 

unplugged_bath 

(a) 完成 对 与 公理 化 浴 斌 相同 形式 的 水 槽 的 公理 化 ， 并 在 AILog 中 测试 。 

(b) 如 果 水 暖 工 没有 在 房子 里 ， 你 希望 用 户 为 你 提供 哪些 信息 ? 改变 该 公理 化 系统 ， 以 便于 询问 用 
户 有 关 的 信息 。 

Co) 如 果 水 覃 滋 出 或 者 浴 仙 涂 出 ， 公 理化 地 板 如 何 为 潮湿 的 。 你 需要 以 下 条 件 : 当 塞 子 塞 住 并 且 水 
流 人 时 ， 则 它们 会 发 生 溢出 。 在 你 给 出 预期 解释 时 ， 你 可 能 需要 引信 新 的 原子 命题 。 (假设 塞 
子 和 移 门 在 一 个 小 时 内 有 相同 的 位 置 ， 你 不 需要 去 公理 化 如 何 动态 打开 阅 门 或 插 人 人 、 移 除 塞 
子 )。 在 AILog 中 进行 测试 。 

(d) 假设 热 水 系统 安装 到 了 阁 门 三 的 左 侧 。 在 水 管 上 有 另 一 个 阀门 ， 控 制 热 水 来 进行 洗澡 和 进入 水 
槽 中 (对 于 每 一 个 水 档 ， 有 分 开 的 冷水 和 热 水 阀门 )。 将 这 个 信息 加 入 你 的 公理 化 系统 中 ， 并 对 
于 所 有 你 所 使 用 的 命题 给 出 符号 。 在 AILog 中 测试 。 

给 定 以 下 的 知识 库 : 

abc 

axe\ f 

bd 

b<—fAh 


A 

gsc 

(a) 给 出 该 知识 库 的 模型 。 

(b) 给 出 一 个 不 是 该 知识 库 的 模型 的 解释 。 

(co) 给 出 两 个 该 知识 库 的 逻辑 推理 的 原子 。 

《d) 给 出 两 个 不 是 该 知识 库 的 逻辑 推理 的 原子 。 
给 定 包含 以 下 子 句 的 知识 库 KB: 

a<bh\ec 


fgAb 
g<cAk 
jaN\b 
(a) 写 出 对 于 这 个 例子 的 自 底 向 上 验证 过 程 。 给 出 KB 所 有 的 逻辑 结论 。 
(b) f 不 是 KB 的 逻辑 结论 。 给 出 KB 的 一 个 模型 ， 在 该 模型 中 f HR. 


5.5 


5.6 


5:7 


5.8 


5.9 
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C) a 是 KB 的 逻辑 结论 ， 对 于 查询 问题 ask a， 给 出 一 个 自 顶 向 下 的 推导 。 
自 底 向 上 验证 过 程 可 以 包含 一 个 用 户 询问 机 制 ， 该 机 制 需要 询问 用 户 所 有 的 原子 命题 。 自 底 向 上 的 
验证 程序 如 何在 不 用 询问 用 户 每 一 个 可 询问 的 原子 的 前 提 下 ,保证 对 所 有 原子 的 验证 都 具有 确定 子 
句 的 知识 库 的 逻辑 完备 性 ? 
本 题 研究 如 何在 拥有 明确 的 语义 的 情况 下 调试 程序 。 本 书 网 站 中 的 文件 elect_bug2. ail 是 对 于 图 5-2 
的 电气 布线 领域 的 一 种 公理 化 的 形式 ,但 是 它 包含 了 一 个 漏洞 子 句 ( 即 在 图 中 的 预期 解释 中 有 一 个 
为 假 ) 。 本 习题 的 目标 是 通过 使 用 AILog 来 找到 该 漏洞 子 句 ， 在 AILog 中 使 用 例 5-5 所 给 定 的 符号 
定义 。 你 不 需要 去 看 知识 库 就 可 以 找到 漏洞 规则 ! (如 果 你 喜欢 ， 你 可 以 通过 观察 知识 库 来 找到 漏 
洞子 句 ， 但 是 这 不 会 在 本 题 中 帮助 到 你 .) 所 有 你 需要 知道 的 是 程序 中 符号 的 意义 和 在 预期 解释 中 哪 
些 是 真 的 。 
查询 lith 可 以 被 证 明 ， 但 是 在 预期 解释 中 它 为 假 。 使 用 AILog 中 的 how 问题 来 找到 在 预期 解 
释 中 哪些 子 名 的 头 部 是 假 的 ， 哪 些 为 真 。 这 就 是 漏洞 规则 。 
考虑 下 面 用 以 解释 什么 人 形迹 可 疑 的 知识 库 和 假说 : 
gato_forest<— walking 
get_gun<— hunting 
goto_forest<—hunting 
Bet_gun<—robbing 
goto_ bank<—robbing 
goto_ bank<—banking 
fill_ withdrawal form<—banking 
falsex-banking A robbing 
false wearing good_shoes À goto_forest 
assumable walking. hunting, robbing banking 
(a) 假设 观察 到 get_gun， 对 于 这 个 观察 来 说 所 有 的 最 小 解释 是 什么 
(b) 假设 观察 到 get_gun A goto_bank。 对 于 这 个 观察 所 有 的 最 小 解释 是 什么 ? 
(0) 在 最 小 解释 中 ， 有 没有 可 以 移 除 的 观察 ? 为 了 对 其 进行 解释 ， 必 须要 加 入 哪些 条 件 ? 
(d) goto_bank 的 最 小 解释 是 什么 ? 
Ce) goto_bank A get_gun À fill_withdrawal_form 的 最 小 解释 是 什么 ? 
假设 对 于 一 个 指定 的 病人 可 能 有 4 种 可 能 的 疾病 : p、g、r 和 s。p Mg 会 导致 斑点 。g、r 或 者 其 
中 的 一 个 (或 者 多 个 ) 会 导致 发 烧 。 病 人 已 经 长 斑 并 上 且 发 烧 。 假设 你 已 经 决定 根据 症状 使 用 潮 因 推理 
来 诊断 这 个 病人 。 
(a) 请 写 出 如 何 使 用 Horn 子 句 和 假设 来 表示 这 个 知识 。 
Cb) 写 出 如 何 使 用 淹 因 推理 来 诊断 这 个 病人 。 请 明确 写 出 查询 和 推理 的 结果 。 
(c) 假设 患者 不 能 同时 患 有 pp 和 s。 写 出 你 在 (a) 问 题 中 提出 的 知识 库 有 哪些 变动 。 写 出 如 何 使 用 潮 
因 推 理 方法 通过 新 的 知识 库 来 诊断 病人 。 明 确 写 出 查询 和 推理 的 结果 。 
考虑 以 下 的 子 句 和 完整 性 约束 : 
falsex-a Nb 
false<c 


ad 


beg 
b<h 
ceh 


假设 假说 是 {&，e，F，g， h， 人 旭 ， 那 么 最 小 约束 是 什么 ? 


5.10 深 室 一 号 (http://nmp. jpl nasa. gov/dsl/) 是 由 美国 航空 航天 局 在 1998 年 10 月 推出 的 飞船 。 它 采 
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用 人 工 智能 技术 用 于 其 判断 和 控制 。 详 细 的 细节 可 以 参考 Muscettola、Nayak、Pell 和 Williams 
[1998 或 者 http://ic. arc. nasa. goOV/Projectsyremote_ Agent/( 但 这 些 资 料 对 于 完成 本 题 并 不 是 必 
需 的 ) 。 

5-14 展示 了 DSI1 发 动机 设计 中 的 一 个 部 分 。 为 了 实现 在 发 动机 的 推力 ， 必 须 注 入 燃料 和 和 氧 
化 剂 。 为 了 确保 其 在 多 个 故障 (主要 是 阀门 卡 住 或 者 失效 ) 存 在 时 仍 能 正常 工作 ， 整 个 设计 存在 了 
大 量 的 宛 余 。 注 意 其 值 是 黑 或 者 白 以 及 是 否 有 阀门 与 这 个 任务 无 关 。 

每 一 个 阁 门 可 以 是 状态 良好 (或 者 失效 ) 和 可 以 被 打开 (或 者 不 能 被 打开 ) 。 我 们 的 任务 目标 是 
公理 化 这 个 问题 ， 这 样 我 们 要 完成 两 个 任务 : 

(a) 在 发 动机 中 ， 观 察 到 了 缺乏 推动 力 ， 而且 观 察 给 出 了 哪些 阀门 是 打开 的 ， 使 用 基于 一 致 性 的 
判断 ， 确 定 哪些 可 能 是 错误 的 。 
(b) 给 定 有 推动 力 的 目标 ， 给 定 某 些 阀 门 是 状态 良好 的 知识 ， 确 定 娜 些 阀 门 是 应 该 被 打开 的 。 

对 于 其 中 的 每 一 个 问题 ， 必 须 考 开 在 知识 库 中 的 子 名 是 什么 ,假说 是 什么 。 

原子 应 该 是 以 下 形式 的 : 

+ 如 果 V 是 打开 的 ，open_V AH. WRF H open_vl, open_v2, SF. 

。 如 果 V 正 常 工作 ， 则 为 ok VAR. 

。 如 果 V 已 经 通过 燃气 进行 了 加 压 ， 则 pressurized_V 为 真 。 你 应 该 假设 pressurized_tl 和 pres- [212 
surized_t2 WH. 

。 如 果 发 动机 巨 已 经 进行 了 推动 ， 则 thrust E AK. 

。 如 果 在 任何 一 个 发 动机 中 都 没有 推力 存在 ， 则 thrust HH. 

。 如 果 没 有 推力 ， 则 nothruss HH. 

为 了 确保 其 为 可 控制 的 ， 仅仅 写 出 对 于 发 动机 el 的 输入 规则 。 使 用 AILog 通过 一 些 实例 测试 
你 的 代码 。 


说 明 

阀门 vi~v16 

燃料 /氧化剂 池 11~ 有 2 
引 葡 el~e2 







5-14 深 空 一 号 引擎 设计 


5.11 考 志 在 前 面 的 问题 中 使 用 测 因 判断 方法 。 
假设 如 下 : 
。 阀门 可 以 是 打开 或 者 关闭 的 ， 对 于 其 中 的 一 些 阀 门 ， aa a MFA 
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我 们 不 知道 。 

。 一 个 阀门 可 以 是 状态 良好 的 ， 在 这 种 情况 下 如 果 阀 门 是 打开 的 燃气 会 流入 ， 如 染 阀 门 是 关闭 的 
则 不 会 流入 ; 也 可 以 是 损坏 的 ， 在 这 种 情况 下 燃气 将 永远 不 会 流 人 ; 可 以 是 卡 住 的 ， 在 这 种 情 
况 下 燃气 是 否 流 入 与 阀门 是 打开 的 还 是 关闭 的 无 关 ; 或 者 是 泄漏 的 ， 在 泄漏 状态 中 ， 燃 气 将 会 
泄露 到 阀门 外 面 而 不 是 流入 。 

。 有 三 种 燃气 传感器 可 以 确定 燃气 是 否 泄漏 (但 不 能 确定 是 哪 种 燃气 ); 第 一 个 燃气 传感器 检测 最 
右边 的 阀门 (v1，…，vw4) 中 的 燃气 ， 第 二 个 燃气 传感器 检测 中 间 的 阀门 (v5，*…，w 12)， 第 三 
个 燃气 传感器 检测 最 左边 的 阀 门 (v13，…*，vw16)。 

Ca) 对 这 个 领域 知识 进行 公理 化 ， 以 便 系统 可 以 解释 引擎 el 是 否 进行 推动 ， 并 且 可 以 解释 每 一 

个 传感器 的 气体 状态 。 比 如 ,可 以 解释 为 什么 el 在 推动 。 可 以 解释 为 什么 el 没有 推动 ， 
为 什么 通过 第 三 个 传感器 有 气体 被 检测 到 。 

Cb) 在 一 些 非 平凡 的 例子 上 测试 你 的 公理 化 结果 。 

Co) 对 于 一 些 查 询 存 在 很 多 种 解释 。 如 何 减 少 或 者 管理 解释 的 数量 使 得 湖 因 判断 更 加 有 效 。 
AlLog 中 的 askables 是 询问 用 户 的 原子 ，assumables 是 在 结果 中 选择 的 原子 。 假 设 你 在 公理 化 你 家 
中 的 电路 ， 且 你 有 和 例 5-3 相 类 似 的 公理 化 方法 。 现 在 你 要 为 一 个 想 要 承租 你 的 房子 的 新 租 客 公 
理化 该 电路 域 ， 他 可 能 想 要 确定 在 电路 中 有 没有 存在 错误 。 

有 一 些 原子 是 你 可 能 知道 的 规则 的 约束 ， 一 些 是 该 租 客 知 道 的 ， 还 有 一 些 是 你 们 两 人 都 不 知 
道 的 。 将 这 些 原 子 命题 分 为 三 个 类 别 ， 指 出 哪些 应 该 是 可 询问 的 ， 哪 些 是 可 假定 的 ， 并 指出 在 你 
的 划分 下 将 会 对 结果 产生 哪些 作用 。 
考虑 在 互联 网 上 使 用 变化 信息 进行 互动 的 采购 Agent 中 ， 使 用 完整 性 约束 和 基于 一 致 性 诊断 。 为 
了 解决 某 问 题 ， 该 采购 Agent 将 会 针对 事实 询问 一 系列 的 问题 ， 然 而 ， 信 息 资 源 有 时 是 错误 的 。 
在 用 户 获 取 了 矛盾 信息 时 ， 如 何 自动 确定 哪些 信息 是 错误 的 非常 有 用 。， 

在 本 题 中 ， 我 们 考虑 如 何 使 用 完整 性 约束 和 假设 来 确定 不 同 的 信息 资源 中 显示 出 的 错误 信息 。 

在 本 题 中 ， 我 们 使 用 无 意义 的 符号 如 a、b、c…， 但 是 在 实际 系统 中 ， 这 些 符 号 可 能 存在 着 关 
Kt, tia 意味 着 “在 夏威夷 有 滑雪 板 ”， 而 = 意味 着 “在 夏威夷 没有 滑雪 板 ”， 或 者 a RKB W 
蝶 什 么 都 不 吃 ”， 而 < 意味 着 “蝴蝶 吃 花 蜜 "*。 我 们 在 本 题 中 使 用 无 意义 的 符号 ， 因 为 计算 机 不 需要 
获得 其 符号 代表 的 意义 ， 而 是 只 需要 将 其 作为 无 意义 的 符号 来 处 理 即 可 。 

假设 存在 下 面 的 信息 资源 和 相关 信息 : 
资源 Sis 资源 Si 要 求 下 面 的 子 句 为 真 : 
a<h 
d*c 
资源 Sz: 资源 Sz 要 求 下 面 的 子 句 为 真 : 


ed 


资源 33: 资源 33 要 求 下 面 的 子 句 为 真 : 
h<—d 

资源 s: 资源 s 要 求 下 面 的 子 句 为 真 ， 
a+-b\Ne 

bac 

资源 ss: 资源 ss 要 求 下 面 的 子 句 为 真 : 
g* fhy 

你 自己 : 假设 你 知道 以 下 的 子 句 为 真 : 
falsesa Nz 

c 


k 
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由 于 它们 在 一 起 就 产生 了 了 矛盾， 所 以 不 是 每 一 个 资源 都 可 信 。 
(a) 通过 用 户 在 AILog 中 使 用 假设 来 编码 知识 。 为 了 使 用 其 中 某 一 资源 提供 的 子 句 ， 你 必须 很 设 
该 资源 是 可 信 的 。 
Cb) 使 用 程序 来 找到 哪些 是 可 信 资 源 的 冲突 (找到 你 可 以 确定 为 false 的 冲突 )。 
Cc) 假设 你 想 要 假定 尽 可 能 少 的 资源 是 不 可 信 的 。 对 于 哪 一 个 单一 的 资源 ， 如 果 其 为 不 可 信和 的， 
将 会 导致 矛盾 ? (假设 其 他 的 资源 都 是 可 信 的 。) 
Cd) 哪 两 个 资源 会 是 导致 牙 盾 的 原因 ? 假设 其 他 资源 都 是 可 信 的 ， 在 该 情况 下 两 个 资源 中 的 任何 
一 个 都 不 会 导致 矛盾 。 
假设 你 在 某 公司 任职 ， 该 公司 建立 了 一 种 在 线 教学 工具 。 由 于 你 上 过 人 工 智 能 课程 ， 你 的 老板 希 
望 知 道 你 基于 考虑 后 对 各 种 问题 提出 的 意见 。 
他 们 计划 为 讲授 基础 物理 (如 力学 和 电磁 学 ) 建 立 一 套 智 能 教学 系统 。 系 统 必 须 完成 的 一 个 任 
务 是 来 判断 学 生 可 能 出 现 的 错误 。 
对 于 下 面 的 陈述 ， 使 用 适当 的 语言 回答 每 一 个 问题 。 如 果 回 答 的 部 分 并 没有 被 提问 过 或 者 只 
有 一 个 问题 被 问 到 却 给 出 了 多 于 一 个 的 答案 时 ， 可 能 会 藻 恼 你 的 老板 。 老 板 也 不 喜欢 专业 术语 ， 
所 以 请 使 用 简单 的 语言 。 
老板 听 说 过 基于 一 致 性 的 判断 和 溯 因 推理 判断 ， 但 是 并 不 想 知道 它们 在 建立 讲授 基础 物理 智 
能 教学 系统 中 具体 涉及 的 内 容 。 
Ca) 解释 在 基于 一 致 性 的 判断 中 ， 需 要 哪些 关于 物理 和 关于 学 生 的 知识 。 
b) 解释 在 滴 因 推理 判断 中 ， 需 要 哪些 关于 物理 和 关于 学 生 的 知识 。 
Co) 在 该 领域 中 便 用 溯 因 推理 判断 比 使 用 基于 一 致 性 的 诊断 的 优势 有 哪些 ? 
(d) 在 该 领域 中 使 用 基于 一 致 性 的 诊断 比 使 用 湖 因 推理 判断 的 优势 有 哪些 ? 
考虑 图 5-11 中 自 底 向 上 否定 即 失败 验证 程序 。 假 设 我 们 想 要 逐渐 增加 和 删除 子 多 。 随 着 子 句 的 增 
加 ，C 会 如 何 变化 ? 随 着 子 句 的 移 除 ，C 会 如 何 变化 ? 
假设 你 在 实现 一 个 自 底 向 上 Horn 子 句 解释 程序 ， 并 且 你 希望 增加 子 句 或 者 假说 。 当 于 句 增 加 时 ， 
最 小 解释 将 会 受到 何 种 影响 ? 当 增 加 假说 时 最 小 解释 会 受到 何 种 影响 ? 
图 5-15 显示 了 一 个 简化 了 的 无 人 航天 珊 (sc) 与 地 面 控 制 中心 (gc) 之 间 的 完 余 通 信和 网 。 有 两 种 
高 带宽 (高 增益 ) 的 链接 ， 其 通过 中 继 卫 星 (sL1， 吕 ) 与 不 同 的 地 面 天 线 (al，a2) 联 系 。 此 外 ， 
也 有 一 个 直接 的 ， 低 带宽 ( 低 增 益 ) 的 链接 ， 是 地面 控制 中 心 的 天 线 (a3) 和 飞船 进行 的 联系 。 
低 增 益 链 路 受 大 气 影响 扰动 ， 如 果 飞 船 的 低 增益 发 射 机 (sc_lg) 和 地 面 天 线 3 都 是 良好 的 ， 且 
没有 扰动 (no_dist)， 则 其 就 进行 工作 。 如 果 飞 船 的 高 增益 发 射 器 (sc_hg)、 卫 星 天 线 (s1_ant， 
s2_ant)、 卫 星 发 射 器 (sl1_ztrans，s2_trans) 和 地 面 天 线 (al1，a2) 都 是 工作 正常 的 ， 则 高 增益 链 
接 会 一 直 工 作 。 
为 了 简单 起 见 ， 我 们 认为 飞船 仅仅 通过 这 些 渠 道 与 地 面 控制 中 心 传递 信息 。 
以 下 知识 库 是 我 们 所 感 兴趣 的 部 分 通信 网 络 的 形式 化 表示 : 
send_signal_lg_sc<-ok_sc_lg \ alive_sc 
send_signal_hg_sc«-ok_sc_hg \ alive_sc 
get_signal_s|<-send_signal_hg_sc \ ok_s\_ant 
get_signal_s2<-send_signal_hg_sc N ok_s2_ant 
send_signal_s\<-get_signal_s1 A ok_sl_trans 
send_signal_s2<-get_signal_s2 N ok_s2_trans 
get_signal_gc~-send_signal_s1 \ ok_al 
get_signal_gc<-send_signal_s2 | ok_a2 
get_signal_gc<—_send_signal_lg_se\ ok_a3 \ no_dist 
由 于 地 面 中 心 没有 从 飞船 接收 到 信号 (no_signal_gc)， 地面 中 心 非常 紧张 。 可 以 明确 地 知道 所 
有 的 地 面 天 线 是 正常 工作 的 ( 即 ok_al、ok_a2 H ok_a3)， 并 且 知 道 卫 星 s1 的 发 射 器 也 是 正常 工作 
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的 (ok_sl_trans)。 但 不 能 确定 飞船 、 飞 船 发 射 嚣 、 卫 星 天 线 、s2 的 发 射 器 和 大 气 扰动 的 状态 。 





图 5-15 空间 通信 和 网络 


(a) 给 出 一 组 假说 和 一 个 完整 性 约束 来 为 这 个 情况 建 模 ， 
Cb) 使 用 (a) 问 题 中 得 出 的 假说 和 完整 性 约束 ， 哪 些 是 最 小 约束 ? 
Co) 针对 给 定 的 情况 ， 基 于 一 致 性 的 判断 是 什么 7 换 句 话说， 哪些 可 能 的 违反 假设 的 组 合 导致 了 
地 面 中 心 不 能 接收 到 从 飞船 发 来 的 信号 ? 
5.18 (a) 解释 为 什么 美国 航空 航天 局 希望 针对 习题 5. 17 A EAA ERTA EEEF 
致 性 的 判断 。 
(b) 假设 大 气 扰动 (dist) 可 能 会 在 低 带 宽 信号 中 导致 静态 信号 或 者 无 信号 情况 。 为 了 获得 静态 信 
E, 天线 a3 和 飞船 的 低 带宽 发 射 器 sc_lg 都 必须 工作 。 如 果 a3 或 者 sc_lg 不 工作 或 者 sc 已 经 
失效 ， 则 没有 信号 。 如 果 我 们 需要 解释 可 能 观察 到 的 命题 no_signal_gc、get_signal_gc， 或 
217 static_gc， 那 么 必须 需要 在 习题 5.17 所 示 的 知识 库 中 加 入 什么 规则 和 假设 ?你 可 以 忽视 高 带 
宽 链 接 。 你 可 以 创造 任何 你 需要 的 符号 。 
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不 确定 推理 





值得 注意 的 是 ， 一 门 起 源 于 对 机 会 游戏 考量 的 科学 应 该 成 为 人 类 知识 领域 最 重要 的 研 
究 对 象 ….… 生 活 中 最 重要 的 问题 ， 绝 大 部 分 其 实 只 是 概率 问题 …… 
概率 论 归结 到 底 不 过 是 计算 常识 而 已 。 





Pierre Simon de Laplace[ 1812 ] 


Agent 总 是 被 迫 在 不 完整 信息 的 基础 上 做 出 决定 。 即 便当 Agent 感知 这 个 世界 来 试图 
找 出 更 多 信息 时 ， 它 也 很 少 发 现世 界 的 确切 状态 。 就 像 机 器 人 不 会 确切 地 知道 目标 所 在 ， 
医生 不 会 确切 地 知道 患者 究竟 哪里 有 问题 ， 老师 不 会 确切 地 知道 学 生理 解 了 什么 。 当 
Agent 必 须 做 出 决定 时 ， 它 们 不 得 不 使 用 他 们 所 拥有 的 所 有 信息 。 本 章 主要 考虑 不 确定 性 
推理 : 通过 对 世界 的 观察 来 确定 这 个 世界 上 什么 是 正确 的 。 第 9 章 中 将 这 作为 不 确定 性 作 
用 下 的 基础 ， 在 这 种 环境 中 ，Agent 必须 决定 采取 什么 样 的 行动 ， 即 使 它 不 能 准确 地 预测 
其 行动 的 结果 。 本 章 以 概率 开始 ， 通 过 适当 的 独立 性 假设 展示 出 怎样 表示 这 个 世界 ， 并 且 
说 明 怎样 通过 这 些 表示 进行 推理 ， 


6.1 概率 


为 了 做 出 一 个 好 的 决定 ，Agent 不 能 简单 地 假设 这 个 世界 是 什么 样子 ， 更 不 能 根据 这 
些 假 设 做 出 行动 。 它 必须 考虑 多 种 可 能 的 突 发 事件 和 它们 的 可 能 性 。 考 虑 下 面 的 例子 。 

【 例 6-11] 许多 人 认为 在 汽车 行驶 中 系 好 安全 带 是 明智 的 ， 因 为 在 事故 中 ， 系 安全 带 
可 降低 严重 伤害 的 危险 。 考 虑 一 个 会 做 出 假设 并 根据 这 些 假设 做 出 决定 的 Agent。 如 果 
Agent 假 设 不 会 发 生意 外 ， 它 就 不 会 为 系 安全 带 带 来 不 便 而 烦恼 。 如 果 它 假定 会 发 生 事故 ， 
它 便 不 会 出 行 。 故 而 在 这 两 种 情况 下 都 不 会 系 好 安全 带 ! 一 个 更 加 智能 的 Agent BRAK 
全 带 ， 因 为 如 果 它 发 生意 外 ， 系 安全 带 所 造成 的 不 便 远 不 如 它 受伤 或 死亡 增加 的 风险 那样 
重要 。 它 不 会 因为 担心 发 生 事故 而 不 出 门 ， 因 为 移动 远 比 基 于 极度 谨慎 而 不 出 门 带 来 更 多 
的 好 处 ， 即 使 会 冒 点 发 生 事 故 的 风险 。 决 定 是 否 走出 去 、 是 否 系 安全 带 取决 于 发 生意 外 的 
可 能 性 ， 在 意外 中 系 好 安全 带 能 带 来 多 少 帮助 ， 系 安全 带 带 来 的 不 便 和 走出 去 的 重要 性 。 
不 同 的 Agent 可 能 做 出 不 同 的 权衡 。 有 些 人 不 系 安全 带 ， 有 些 人 基于 会 发 生意 外 的 风险 而 
选择 不 出 去 。 a 

不 确定 性 推理 已 经 在 概率 论 和 决策 理论 领域 有 所 研究 ， 概 率 就 是 赌博 (gambling) 的 运 
算 。 当 Agent 做 出 决定 并 且 其 行动 的 结果 包含 不 确定 性 时 ， 它 就 是 在 对 结果 进行 赌博 。 然 
而 ,与 在 赌场 的 赌 徒 不 同 ，Agent 不 能 选择 退出 决定 不 财 ， 无 论 它 做 什么 都 涉及 不 确定 性 
和 风险 (包括 它 什么 都 不 做 的 情况 ) 。 如 果 它 不 考虑 概率 ， 它 最 终 会 在 赌博 中 败 给 考虑 概率 
的 Agent. 当然 ， 这 并 不 意味 着 ， 做 出 最 好 的 决定 就 能 保 赢 。 

我 们 中 的 许多 大 学 习 的 概率 论 为 抛 硬 币 或 是 掷 侈 子 ， 尽 管 这 是 一 个 提出 概率 论 的 好 方 
法 ， 但 实际 上 概率 可 以 用 到 比 硬 币 和 仍 子 丰富 得 多 的 应 用 中 。 在 一 般 情况 下 ， 我 们 和 希望 有 
一 个 用 于 信念 的 演算 可 以 用 来 决策 。 
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一 种 观点 将 概率 看 做 是 对 信念 的 度量 ， 而 不 是 频率 ， 为 人 们 所 熟知 的 是 贝 叶 斯 概率 
(bayesian probability) 或 主观 概率 (subjective probability) 。 主 观 这 一 术语 不 意味 着 任意 ， 
而 是 倾向 于 “主题 ”"。 例 如 ， 假设 有 三 个 Agent. Alice, Bob 和 Chris， 它 们 投掷 一 个 山子 。 
假设 Alice 观察 的 结果 是 “6”， 并 告诉 Bob 结果 是 偶数 ， 而 Chris 对 结果 一 无 所 知 。 在 这 种 
情况 下 ，Alice 对 结果 是 “6” 的 概率 为 1，Bob 对 结果 是 “6 的 概率 为 1/3( 假 设 Bob 相信 
Alice， 并 且 认 为 所 有 偶数 的 概率 是 相同 的 )，Chris 的 概率 为 /6。 由 于 具有 不 同 的 知识 导 
致 它们 的 概率 不 同 ， 这 个 概率 是 此 次 掷 蜗 子 的 特定 结果 ， 而 不 是 掷 性 子 的 某 些 通用 事件 。 
对 于 其 他 投 硬 币 事 件 的 结果 ， 这 些 Agent 可 以 具有 相同 或 不 同 的 概率 。 

另 一 种 是 频率 论 (frequentist) 观点 ， 概 率 是 长 期 运行 重复 事件 的 频率 。 贝 叶 斯 概率 适 
合 于 智能 Agent， 因 为 在 特定 情况 下 信念 度量 是 决策 所 需要 的 。Agent 不 会 遇 到 一 般 事 件 ， 
但 必须 基于 它们 遇 到 的 特殊 情况 的 不 确定 性 做 出 决定 。 

概率 论 可 以 被 定义 为 知识 如 何 影响 信念 的 研究 。 对 某 个 命题 的 相信 程度 gx， 可 以 利用 
0 和 1 之 间 的 数 来 衡量 。 概 率 a 为 0 表示 命题 被 认为 肯定 是 假 的 (没有 新 的 证 据 可 以 动 播 这 
种 信念 ) ， 概 率 为 1 意味 着 命题 被 认为 肯定 是 正确 的 。 使 用 0 和 1 纯粹 是 一 个 惯例 。 

采用 概率 的 信念 观点 并 不 意味 着 统计 数据 将 被 忽略 。 对 过 去 发 生 的 事件 所 产生 的 统计 
数据 是 有 重要 影响 力 的 知识 ， 并 且 可 以 用 于 更 新 信念 (请 参阅 第 7 章 如 何 学 习 概率 )， 

我 们 假设 的 不 确定 性 是 认识 论 (epistemological) 上 的 ， 与 Agent 对 世界 的 认识 有 关 ， 
而 不 是 本 体 论 Contological) 的 ， 即 世界 是 怎样 的 。 我 们 假设 Agent 关于 命题 真实 性 的 知识 
是 不 确定 的 ， 没 有 假设 真实 的 程度 。 例 如 ， 如 果 有 人 告诉 你 菜 个 人 非常 高 ， 你 知道 他 有 一 
定 的 高 度 ; 你 对 于 他 的 真实 高 度 只 是 有 一 个 模糊 的 概念 。 

如 果 Agent 的 某 个 a 的 概率 是 大 于 0 且 小 于 1 的 ， 这 并 不 意味 着 在 某 种 程度 上 wx 为 
A, Wi Agent 不 知道 a 是 真 还 是 假 。 概 率 反 映 出 Agent 无 知 的 部 分 。 

在 本 章 其 余 的 部 分 ， 我们 忽略 模拟 的 拥有 概率 的 Aget 本 身 ， 只 考虑 概率 。 


6. 1.1 概率 的 语义 


概率 论 是 建立 在 世界 和 变量 作为 约束 满足 的 相同 的 基础 上 的 ( 见 4.2 节 )。 概 率 度量 可 
能 的 世界 ， 不 带 有 去 除 某 些 世界 并 把 每 个 其 他 的 世界 看 成 是 可 能 世界 的 某 些 约束 。 概 率 论 
中 涉及 的 变量 为 随机 变量 (random variable)， 随 机 变量 这 一 术语 有 点 用 词 不 当 ， 因 为 它 既 
不 是 随机 的 也 不 是 变量 。 正 如 4.2 节 所 讨论 的 ， 变 量 可 以 描述 世界 ， 一 个 世界 对 应 于 对 每 
个 变量 的 一 种 赋值 。 反 过 来 ， 变 量 也 可 以 由 世界 来 描述 ， 一 个 变量 是 一 个 函数 ， 该 函数 对 
每 个 世界 返回 一 个 值 。 
首先 ， 我 们 定义 概率 为 世界 集合 的 一 种 度量 ， 然 后 定义 概率 是 关于 命题 的 ， 最 后 才 是 
关于 变量 的 。 
世界 的 概率 度量 (probability measure) 是 从 世界 集合 到 非 负 实数 集 的 一 个 函数 yy， 使 得 
. 如 果 AQ All N: 是 世界 的 不 相交 集合 ( 即 如 果 fon MNQ:={}), 那么 po U2.) = 
pR) tHe): 
。 如 果 0 是 所 有 让 界 的 集合 ,jC(Q)==1。 
需要 注意 的 是 ， 只 是 习惯 上 使 用 1 作为 全 集 的 概率 ， 同 样 也 可 以 使 用 100. 
当 一 些 变量 有 无 穷 的 定义 域 或 是 当 无 穷 多 个 变量 存在 时 ， 存 在 无 穷 多 个 世界 是 可 能 
的 。 当 存在 无 穷 多 个 世界 时 ， 我 们 并 不 需要 度量 Q 的 所 有 子 集 一 只 需 度量 可 以 用 某 种 语 
言 描述 的 集合 ， 假 设 这 种 语言 允许 我 们 描述 交集 、 并 集 、 补 集 。 通 过 这 些 操 作 的 所 描述 的 
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子 集 的 集合 具有 数学 家 称 之 为 代数 (algebra) 的 结构 。 

对 于 世界 w 来 说 ， 可 以 通过 定义 pw) 一 u({w}) 把 度量 和 扩展 到 世界 上 。 当 存在 有 限 
多 的 世界 时 ， 个 别 世 界 的 度量 足以 定义 py。 当 存 在 无 限 多 的 世界 时 ， 可 能 个 别 世 界 的 度量 
不 足以 定义 kw， 或 者 说 对 个 别 世 界 进行 度量 是 没有 意义 的 。 

【 例 6-2] 假设 世界 对 应 一 个 特定 人 的 可 能 实 值 高 度 ， 以 厘米 为 单位 。 在 这 个 例子 中 ， 
有 无 限 多 可 能 的 世界 。 高 度 集 合 在 范围 [175，180) 内 的 概率 为 0.2， 在 范围 [180，190) 内 
的 概率 为 0. 3。 那 么 在 范围 L175，190) 内 的 概率 为 0.5。 然 而 ， 任 何 特定 高 度 的 度量 可 以 
为 零 。 要 

如 5.1 节 中 描述 的 ， 原 始 命 题 是 将 一 个 值 赋 给 变量 。 命 题 是 由 原始 命题 通过 使 用 逻辑 
连接 词 连接 而 成 。 下 面 我 们 就 利用 这 个 性 质 来 定义 变量 的 概率 分 布 。 

命题 a 的 概率 记 作 Pl(a)， 是 可 能 世界 集中 使 a 为 真 的 集合 的 度量 。 即 

Pl(a)=p({w : wl =a} 
Ep, woke 代表 在 世界 w Pa 为 真 。 因 此 ，P(a) 是 世界 集中 a 为 真 的 度量 。 

这 里 使 用 的 符号 上 不 同 于 前 面 章 节 中 使 用 的 ( 见 5.1.2 节 )。 在 前 面 章节 中 ， 符 号 的 左 
侧 表 示 的 是 一 个 知识 库 ; 这 里 ， 左 侧 表示 一 个 世界 。 其 具体 的 含义 从 上 下 文 来 看 应 该 是 明 
确 的 。 

随机 变量 X 上 的 概率 分 布 (probability distribution)P(X)， 是 一 个 将 X 域 映射 为 实数 
的 函数 ， 使 得 给 出 一 个 值 -Edom(X)，P(z) 是 命题 X= 的 概率 。 我 们 也 可 以 类 似 地 定 
义 一 组 变量 的 概率 分 布 。 例 如 ，P(X, 了 ) 是 XX 和 Y 上 的 概率 分 布 ， 即 P(X=zx, Y=y), 
其 中 的 zEdom(X)，zEdom(X)， 它 有 值 P(X 二 xAY 二 y)， 其 中 六 二 xz 人 Y= 二 y 是 一 个 命 
题 ，P 是 命题 的 函数 。 当 把 概率 集合 看 成 是 一 个 整体 时 ， 我们 将 使 用 概率 分 布 。 


6. 1.2 概率 公理 


前 一 节 给 出 了 概率 的 语义 定义 。 我 们 也 可 以 给 出 一 个 概率 的 公理 化 定义 ， 指 出 在 信念 
演算 中 我 们 可 能 需要 的 属性 公理 。 


概率 密度 函数 


当 域 连续 时 (例如 ， 一 个 实数 子 集 )， 概 率 有 时 根据 概率 密度 函数 来 定义 。 概 率 密 度 函 
数 提供 了 一 种 度量 可 能 世界 集合 的 方式 。 这 种 度量 根据 概率 密度 函数 的 积分 来 定义 ， 积 分 
正式 地 定义 为 离散 化 越 来 越 细 时 它 的 极限 值 。 

在 这 本 书 中 我 们 唯一 使 用 的 非 离散 概率 分 布 的 域 是 实数 线 。 在 这 种 情况 下 ， 每 个 实 
数 都 对 应 一 个 可 能 世界 。 概 率 密度 函数 (probability density function) 我 们 记 为 方 ， 它 是 一 
个 从 实数 到 非 负 实 数 积分 为 1 的 函数 。 一 个 值 在 a 和 5 之 间 的 实 信和 随机 变量 卫 的 概率 给 
出 如 下 : 

Pla<X <6) = [pax 

$45 t (parametric distribution) 是 一 个 其 密度 函数 可 以 由 公式 来 描述 的 分 布 。 虽 然 
并 非 所 有 的 分 布 都 可 以 用 公式 描述 ， 但 是 所 有 我 们 能 够 表示 的 分 布 都 可 以 。 有 时 统计 学 家 
使 用 术语 参数 化 ， 代 表 那 些 可 以 由 一 组 固定 的 、 有 限 数量 的 参数 来 描述 的 分 布 。 非 参数 化 
分 布 (non-parametric distribution 的 参数 数目 是 不 国定 的 。( 奇 妙 的 是 ， 非 参数 化 通常 意味 
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着 “许多 参数 ”。) 
一 个 常见 的 参数 分 布 是 均值 为 w， 方差 为 中 的 正 态 分 布 或 高 斯 分 布 Cnormal or Gaussian 
distribution), 定义 为 


1 re 
p(X) = e zie w/o) 
2x0 


其 中 ，o 是 标准 偏差 。 用 正 态 分 布 测量 误差 ， 此 处 jx 为 平均 值 , o 为 值 的 偏差 。 由 拉 普 拉 
斯 [1812] 证 明 的 中 心 极限 定理 (central limit theorem) 表 明 ， 独 立 误差 的 总 和 将 逼近 高 斯 分 
布 。 这 和 其 他 优异 的 数学 特点 使 得 正 态 分 布 被 广泛 使 用 。 

其 他 分 布 ， 包括 贝塔 和 狄 利克 雷 分 布 ， 将 在 不 确定 性 学 习 一 节 中 讨论 。 


假设 已 是 一 个 将 命题 转化 为 实数 的 函数 ， 满 足以 下 三 个 概率 公理 (axiorm of probability) : 

公理 1 对 于 任意 命题 a， 0 之 P(a)。 也 就 是 说 ,任何 命 题 的 概率 不 能 为 负数 。 

公理 2 如果 了 为 重 言 式 ， 则 已 (rz) 一 1。 也 就 是 说 ， 如 果 工 对 所 有 可 能 的 世界 均 为 真 ， 
则 其 概率 为 1 。 

公理 3 当 a 和 BB 互 为 对 立 命题 时 ， 也 就 是 说 ， 当 一 (a 八 有 为 重 言 式 时 ，PlaV 有 一 
Pl(a) 十 P(B)。 即 如 果 两 个 命题 不 能 同时 为 真 (它们 互 斥 )， 其 析 取 的 概率 是 它们 的 概率 
之 和 。 

这 些 公理 具有 直观 属性 ， 使 我 们 获得 合理 的 信念 度量 。 如 果 信 和 念 度 量 遵从 这 些 直观 的 
公理 ， 则 不 论 它 是 否 是 实际 频率 计数 ， 都 符合 概率 论 。 这 些 公 理 形 成 一 个 合理 而 完备 的 公 
理化 概率 意义 ， 合 理性 是 指 这 些 公理 被 用 可 能 世界 语义 定义 的 概率 遵循 ， 完 备 性 是 指 任何 
遵循 这 些 公理 的 信念 系统 都 具有 概率 语义 。 

命题 6. 1 如 果 存 在 有 限 数目 的 有 限 离散 随机 变量 ,公理 1、2、3 关于 语义 是 合理 的 
和 完备 的 。 

这 些 公理 的 语义 真实 性 是 很 容易 检查 的 。 换 各 话说 ， 你 可 以 使 用 这 些 公理 来 从 世界 概 
率 计 算 任 何 概率 ， 因 为 两 个 世界 中 的 描述 是 互 斥 的 。 其 完全 的 证 明 留 给 读者 作为 练习 。 

命题 6.2 对 于 所 有 命题 a 和 B， 以 下 都 成 立 : 

(a) 否定 命题 : 

P( -a)=1—P(a) 
(b) R aep, N P(a) 二 PC(B)。 也 就 是 说 ， 逻 辑 上 等 价 的 命题 具有 相同 的 概率 。 
(c) 情况 推理 ;: 

P(la)=P(aAB)+P(aN 79) 
(d) 如 果 V AMD 中 的 一 个 随机 变量 ， 那 么 对 于 所 有 命题 a， 

Pla) = DPC AV=d) 


(e) FAR PM HMR, 
Pla VA =P(a) + P(p)— Pla) 
iE AA: 
(a) 命题 aV -a fi “eA DOERR HK. Alt, 1=P@V-a)=Ple)+P(-a). 重新 排 
列 给 出 了 所 需 的 结果 。 
(b) 如 果 a<>B， 则 aV-8 是 重 言 式 ， 所 以 Pl(aV -8) 一 1。a 和 -8 是 矛盾 命题 ， 所 以 可 
以 由 公理 3 给 出 PlaV 一 有 二 Pla) 十 P( 了 -BP)。 由 (a) 有 POMPA. Aik. P@)+1— 
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P(®)=1, P (=P). 

(c) 命题 ael Ca AAB V aA "POM -ACaANPA CA "POHRHRAK. Alt. Plad= 
Cla NB) V CA 7B2))=PCANP+PCA 7p). 

(d) 证明 类 似 于 (e) 。 

Ce) (@VP-CaV>DPVAAHAX. Aik. 

PiaVA=PUaV7—PVAP=PlaV7—)+P(p) 

HOA, PlaA 7B)=P@)—PlaVp). Ask, 

P(aV 2) =P(a)—Pla\ p)+P(p) s 


6.1.3 条 件 概率 


通常 情况 下 ， 我们 不 仅 想 知道 一 些 命题 的 先 验 概率 ， 而 且 想 知道 当 Agent 观察 到 新 证 
据 时 如 何 更 新 信念 。 

基于 命题 e 的 命题 h 的 信念 度量 称 作 给 定 e Fh 的 条 件 概率 (conditional probability), 
记 为 Pahle). 

公式 e (RH Agent 对 世界 所 有 观察 (observation) 的 合 取 ， 称 为 证 据 (evidence)。 已 知 证 据 
ce， 条 件 概率 P(h|e) 是 及 的 后 验 概率 (posterior probability). WR PC(h) 是 及 的 先 验 概率 (prior 
probability)， 与 P(h|irue) 相 同 ， 因 为 它 是 Agent 在 观察 到 任何 事物 之 前 的 概率 。 

后 验 概率 以 Agent 知道 的 特定 情况 下 的 一 切 为 条 件 ， 所 有 的 证 据 都 必须 以 获得 正确 的 
后 验 概率 为 条 件 。 

【 例 6-3] 对 于 诊断 助手 来 说 ， 患 者 的 症状 就 是 证 据 。 诊 断 Agent 在 了 解 特定 病人 之 
前 使 用 可 能 疾病 的 先 验 概率 分 布 。Agent 在 获得 一 些 证 据 之 后 会 使 用 后 验 概 率 。 当 Agent 
通过 与 患者 进行 讨论 ， 观 察 症 状 ， 或 得 到 实验 室 测试 的 结果 后 获取 新 的 证 据 ， 它 必须 更 新 
它 的 后 验 概 率 以 反映 新 的 证 据 。 新 证 据 是 旧 证 据 和 新 观察 的 结合 体 。 a 

【 例 6-4) 机 器 人 从 其 传感器 接收 到 的 信息 是 它 的 证 据 。 当 传感器 有 噪声 时 ， 证 据 是 
那些 已 知 的 东西 ， 诸 如 由 传感器 接收 到 的 特定 模式 ， 而 不 是 有 一 个 人 站 在 机 器 人 面前 。 机 
器 人 可 能 对 世界 有 误解 ， 但 是 它 知 道 收 到 了 什么 样 的 信息 。 < 

1. 条 件 概 率 的 语义 

证 据 e 将 排除 所 有 可 能 与 其 不 匹配 的 世界 。 就 像 巡 辑 结论 的 定义 ， 给 定 的 公式 e 会 选 
择 使 其 为 真 的 可 能 世界 。 证 据 e 在 所 有 可 能 世界 上 推导 出 一 个 新 的 度量 w。， 当 所 有 e 为 假 
时 ， 可 能 世界 的 度量 为 0， 其 余 的 世界 进行 标准 化 ， 所 以 世界 的 度量 总 和 为 1。 

在 这 里 ， 我们 回顾 定义 条 件 概 率 的 基本 原则 。 在 面 对 不 寻常 的 情况 时 ， 这 个 基本 定义 
通常 是 很 有 用 的 。 

度量 的 定义 遵循 以 下 两 个 直观 的 属性 : 

。 如 果 S 是 一 个 可 能 世界 的 集合 ， 对 于 某 个 常数 c( 下 面 推 导 )， 所 有 使 e 为 真 的 度 

量 ， 定 义 为 py.(S)==cXyp(S)。 
。 如 果 S 是 一 个 世界 集合 ， 所 有 使 e 为 假 的 度量 定义 为 w(S) 王 0。 


其 他 可 能 的 信念 度量 


证 明 其 他 信念 度量 具有 不 确定 性 。 例 如 ， 信 念 x 人 B 是 信念 a& Map ARAA, R 
这 样 的 信念 度量 叫做 组 合式 (compositional) 度 量 。 考 虑 单一 硬币 的 投 撞 就 可 以 看 出 为 什么 
这 种 度量 是 不 明智 的 。 比 较 一 下 两 种 情况 ， 第 一 种 情况 ，ar 代表 投掷 硬币 正面 朝 上 并 且 肥 
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代表 投掷 硬 币 背 面 朝 上 ， 第 二 种 情况 ，us 代表 投 搓 硬 币 正 面 朝 上 并 且 应 代表 投 指 硬 币 正 
面 朝 上 。 对 于 这 两 种 情况 来 说 ， 信 念 m 似乎 与 信念 wz， FRASER BS. CERES 
Qa1 八 Bi( 其 实 是 不 存在 的 ) 不 同 于 信念 ABS az 相等 )。 

条 件 概 率 PCSIORAFRBSK P(e 一 万 的 概率 。 后 者 与 P(eV PARA, WFAA 
或 者 e 为 假 所 解释 的 度量 。 例 如 ， 假 设 有 一 个 域 ， 鸟 很 稀少 ， 且 其 中 的 一 小 部 分 为 不 飞 的 
鸟 。 这 里 P( flies |bird) 代 表 那 些 不 飞 的 岛 的 比例 ， 通常 非常 低 。P(bird-> flies) § 
P(>birdV "flies) 相 辣 ， 由 非 岛 类 占 主导 地 位 ， 所 以 会 很 高 。 类 似 的 ， 概率 Plbird— 
Ylies) 也 很 高 ， 由 非 岛 类 占 主导 地 位 。 很 难 设想 一 个 蕴含 式 的 概率 是 一 种 适当 的 或 是 有 用 
的 知识 。 


我 们 令 jy 为 一 概率 度量 ， 所 以 如 果 是 所 有 可 能 世界 的 集合 ,jg (0) 二 1。 因 此 ,1= 
mD ulw: we))tp({w: w| Ae} =X pw? w Fe}) +0=cX Ple), 因此 c=1/P(e), 

已 知 证 据 e Fh 的 条 件 概率 用 jy 来 表示 ， 其 可 能 世界 路 为 真 ， 即 

Pthle) = ulw w ERD = ulw wh A e H tw: wh A 0)}) 


_ ulw: wh A e}) o= PAA e) 
P(e) P(e) 


上 面 所 给 出 的 最 后 的 形式 通常 作为 条 件 概 率 的 定义 。 

本 章 的 其 余部 分 假设 ， 如 果 e 为 证 据 ，P(e) 二 0。 我 们 不 考虑 那些 命题 概率 为 0 的 情 
况 ( 比 如 ， 世 界 集 合 的 度量 为 0) 。 

条 件 概率 分 布 (conditional probability distribution) 为 变量 函数 ， 记 为 POX|Y. He XA 
Y 是 变量 或 变量 集 : 对 于 X， 给 定 一 个 值 -Edom(X)， 对 于 了 了 ， 给 定 一 个 值 yEdom(Y)， 其 
给 出 P(X 二 zx|Y 二 yy) 的 值 ， 后 者 是 命题 的 条 件 概率 。 

条 件 概率 的 定义 可 以 让 我 们 将 一 个 合 取 分 解 为 几 个 条 件 概 率 的 乘积 : 


命题 6.3 ( 链 式 法 则 ) 条 件 概 率 可 以 用 来 分 解 合 取 。 对 于 任意 命题 a1 ，*…，a;: 
Pla; A az 人 … A an) = Pla) X 
Pla: | a) X 


Plas |a A az) X 


Plan |ar A = N ama) 
= T[ Pt Ja: Av A am) 
i=1 


这 里 如 果 乘 积 中 任意 项 为 0， 则 很 定 上 式 中 右 便 为 0( 即 使 其 中 有 些 是 未 定义 的 )。 

请 注意 ， 如 果 为 每 个 概率 增加 了 相同 的 证 据 ， 则 任何 有 关 非 条 件 概率 的 定理 也 是 有 关 
条 件 概 率 的 定理 。 这 是 因为 条 件 概率 度量 是 另 一 种 概率 度量 。 

2. 贝 叶 斯 规则 

当 Agent 观察 到 新 的 证 据 时 ， 它 必须 更 新 其 概率 。 一 条 新 证 据 与 旧 证 据 相 结合 形成 一 
个 完整 的 证 据 集 。 


背景 知识 与 观察 


背景 知识 和 观察 之 间 的 不 同 之 处 在 5.3.1 节 中 描述 过 。 当 我 们 使 用 不 确定 性 推理 时 ， 
其 背景 模型 是 根据 概率 模型 来 描述 的 ， 观 察 形成 条 件 性 证 据 。 
在 概率 中 有 两 种 方法 来 说 明 a 为 真 : 
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。 第 一 种 ; a 的 概率 为 1， 即 写 为 P(a) 一 1。 : 

。 第 三 种 ，、 对 a 进行 条 件 限 制 ， 把 a 放 在 条 件 栏 的 右 侧 ， 即 P(。|a)。 

第 一 种 方法 指出 ，a 在 所 有 可 能 世界 中 为 真 。 第 三 种 方法 指出 ，Agent 只 对 a 偶然 为 
真 的 世界 感 兴趣 。 

假设 Agent 知道 一 种 特定 的 动物 : 

Pl flies | bird) =0. 8 

P(bird | emu)=1. 0 

P( flies |emu)=0. 001 

WR EERI Hh EB (emu, -ARA RS), WM MEY Plemu)—1. 
没有 概率 分 布 能 够 满足 这 四 项 要 求 。 如 果 在 所 有 可 能 世界 中 emu JE. 就 不 会 出 现 概率 为 
0.8， 即 有 个 别 会 飞 的 鸟 的 情况 。 相 反 ，Agent 必须 把 条 件 限 制 在 事实 上 ， 即 emu 才 是 个 
别 情况 。 

为 了 建立 一 个 概率 模型 ， 知 识 库 的 设计 者 必须 考虑 到 一 些 知识 ， 并 在 此 知识 基础 上 来 
建立 概率 模型 ， 后 续 所 获得 的 知识 必须 看 成 是 有 条 件 的 观察 。 

假设 Agent 在 一 段 时 间 内 所 观察 到 的 知识 是 由 命题 给 出 的 。Agent 的 后 续 的 信念 状 
态 可 以 由 下 面 任意 一 项 来 模拟 : 

。 在 Agent 观察 &k 之 前 ， 基 于 测度 yy 构建 一 种 概率 论 ， 然 后 以 证 据 上 为 条 件 ， 与 后 

续 证 据 e 相 结合 。 
。 基于 测度 ju 构建 一 种 概率 论 ， 来 模拟 Agent 观察 & 之 后 的 信念 ， 然 后 以 后 续 证 据 
e 作为 条 件 。 

无 论 使 用 哪 种 构建 ， 所 有 的 后 续 概 率 都 是 完全 相同 的 。 有 了 时 直接 构建 yxs 很 简单 ， 因 
为 其 模型 不 用 必须 满足 & 为 假 的 情况 。 然 而 ， 有 时 构建 和 条 件 限制 & 相对 简单 。 

重要 的 是 ， 概 率 模 型 是 合理 的 和 每 一 个 后 续 观 察 是 有 条 件 的 ， 两 者 是 连贯 的 。 


贝 叶 斯 规则 指明 Agent 应 该 怎样 基于 一 条 新 的 证 据 来 更 新 命题 的 概率 。 

假设 Agent 基于 观察 证 据 & 的 命题 h 的 当前 概率 为 了 Cj1&)， 随 后 观察 到 e。 对 六 的 新 
概率 为 PChle 人 &)。 贝 叶 斯 规则 告诉 我 们 ， 随 着 新 证 据 的 获得 Agent 是 如 何 更 新 假定 六 的 
概率 的 。 

命题 6. 4( 贝 叶 斯 规则 ) ”只 要 P(e|k) 关 0， 


__ Ple|h AR) X POh|k) 
Penje a p = Eele A D Pale 


通常 隐 含 背景 知识 人 E。 在 这 种 情况 下 ， 如 果 P(e) 隆 0， 则 
Peh |e) = EELA X P) 


P(e) 

Ple|h) 是 假设 及 的 可 能 性 (likelihood)，P(h) 为 假设 有 的 前 提 (prior)。 贝 叶 斯 规则 表 
明 ， 后 验 概率 与 可 能 性 和 先 验 概率 的 乘积 成 正比 。 

证 明 : 合 取 的 交换 率 是 指 有 Ae 与 和 Ah 相等 ， 对 于 给 定 的 它们 具有 相同 的 概率 。 有 
两 种 不 同 的 方式 使 用 乘法 规则 : 

PlhAe|k)=PCh|eNk) X Ple| k)=Ple| AAR) X PO |k) 

定理 通过 P(e|k) 划 分 右 侧 部 分 。 m 

通常 情况 下 ， 贝 叶 斯 规则 是 用 来 比较 各 种 假设 (h;) 的 ， 可 以 注意 到 ， 分母 PCle|k) 是 
常数 ， 不 依赖 于 特定 的 假设 。 当 比较 假设 的 相对 后 验 概率 时 ， 可 以 忽略 分 母 。 为 了 获得 后 
验 概率 ， 分 母 可 以 通过 情况 推理 来 计算 。 如 果 H 是 独立 的 ， 并 且 代 表 了 所 有 可 能 假设 所 
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”覆盖 的 命题 的 集合 ， 那 么 


Peel b = X) Ple Nhl Rk) = DPlelh Ak) x Peh|k) 
Ll hE H 


因此 ， 贝 叶 斯 规则 的 分 母 是 通过 总 和 所 有 假设 的 分 子 而 获得 的 。 当 假设 空间 很 大 时 ， 
其 分 母 是 难以 计算 的 。 

一 般 情况 下 ， 估 计 PCe|AA 忆 或 PGleA 好 中 的 一 个 会 比 另 一 个 简单 得 多 。 当 一 个 域 
中 存在 因果 关系 的 理论 时 这 种 情况 时 常 发 生 ， 并 且 不 同 假设 的 预测 一 一 每 一 个 假说 h 的 
P(e|h; 人 Ak) 一 一 可 以 由 域 理 论 来 推导 。 

【 例 6-5] 假设 诊断 助手 对 图 1-8 的 开关 s 的 诊断 感 兴趣 。 我 们 期 望 这 个 模型 能 够 指 
明 开 关 的 输出 关于 其 输入 、 开 关 的 位 置 以 及 开关 的 状态 是 怎样 一 个 函数 (可 以 是 工作 ， 短 
路 ,安装 上 下 颠倒 ， 等 等 )。 贝 叶 斯 规则 可 以 让 Agent 根据 给 定 的 其 他 信息 推断 出 开关 的 
状态 。 a 

【 例 6-6] 假设 Agent 具有 火警 可 靠 性 的 信息 。 如 果 发 生火 灾 它 会 知道 警报 的 可 能 性 
是 多 大 。 如 果 有 警报 ， 它 必须 要 知道 发 生火 灾 的 概率 ， 它 可 以 使 用 贝 叶 斯 规则 : 

A fire) X P( fire) 


P(alarm) 
假设 发 生火 灾 ， 其 Plalarm| fire) 是 报警 的 概率 。 它 是 对 警报 可 靠 性 的 度量 。P(fire) 是 
在 没有 其 他 信息 的 情况 下 发 生火 灾 的 概率 。 它 是 对 建筑 易 发 生火 灾 的 度量 。P(alarm) 蚌 
在 没有 其 他 信息 的 情况 下 报警 的 概率 。 < 


6.1.4 期 望 值 


可 以 使 用 概率 来 给 出 任何 数值 随机 变量 的 期 望 值 ( 如 ,一 个 域 是 实数 的 一 个 子 集 )。 变 
量 的 期 望 值 是 变量 的 加 权 平 均值 ， 其 在 每 个 可 能 世界 的 值 由 可 能 世界 的 度量 来 加 权 。 

假设 V 是 一 个 随机 变量 ， 它 的 域 为 数值 域 ，w 是 一 个 可 能 世界 。 定 义 V(w) 为 域 V 中 
的 值 z， 使 得 woFV 一 v， 也 就 是 说 ， 我 们 把 一 个 随机 变量 作为 世界 的 函数 。 

数值 变量 V 的 期 望 值 (expected value) ， 记 为 sCV): 

eV) = DI Vio) X ulo) 


这 里 指 存在 有 限 多 的 世界 时 。 当 存在 无 限 多 的 世界 时 ， 我 们 必须 积分 。 
【 例 6-7】 如 果 坏 开关 的 数量 是 一 个 整数 值 的 随机 变量 ， 


e(number_of broken switches) 
会 给 出 坏 开 关 的 期 望 数 。 如 果 世 界 根据 概率 模型 运行 , 将 给 出 坏 开 关 长 期 运行 的 平 
均 数 。 a 

用 类 似 的 语义 定义 条 件 概 率 ， 以 证 据 e ARIER X WH REA BE (conditional 
expected value) 记 为 sCV|e) ， 

(Ve) = VG) X p(w) 


因此 ， 


= 
e(V |e) = PHY X Plw) LV) x P| e) 





【 例 6-8] 假设 灯 4 不 亮 ， 坏 开关 的 期 望 数 如 下 : 


e(number_of _broken_switches | ~lit(l,)) 


这 是 通过 所 有 灯 5 不 亮 的 所 有 世界 中 坏 开 关 的 平均 数目 获得 的 。 < 
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6.15 信息 理论 


概率 形成 信息 理论 的 基础 。 在 本 节 中 ， 我 们 将 简要 介绍 信息 理论 。 

位 (bit) 是 一 个 二 进 制 数 。 因 为 位 有 两 个 可 能 的 值 ， 可 以 用 它 来 区 分 两 个 项 目 。 通 常 ， 
这 两 个 值 写 作 0 和 1， 人 和 但 它们 也 可 以 写 为 任意 两 个 不 同 的 值 。 

2 个 位 可 以 区 分 4 个 项 目 ， 分 别 记 为 00、01、10 M11, RE, 3 个 位 可 以 区 分 8 个 项 
目 。 在 一 般 情况 下 , nn 个 位 可 以 区 分 2" 个 项 目 。 因 此 ， 我们 可 以 用 login 位 来 区 分 xz 个 项 
目 。 这 可 能 是 令 人 惊讶 的 ， 但 我 们 可 以 通过 把 概率 问题 考虑 进去 从 而 做 得 更 好 。 

【 例 6-9] 假设 你 想 设计 一 个 编码 来 区 分 集合 {a,， bs co d PHTK. HP Pla)=1/ 
2, P(b)=1/4, P(c)=1/8, P(d)=1/8, FRFMHRE: 

a 0 e 10 

b 10 d ii) 

这 种 编码 ， 有 时 会 使 用 1 位 ， 有 时 会 使 用 3 位 。 平 均 来 说 ， 它 使 用 

1 


Pla) Xit P) X2+ P(e) x3+Pa)Xx3= 1+ 了 位 


例如 ，8 字符 的 字符 串 aacabbda 的 编码 为 14 位 00110010101110。 

这 个 编码 需要 用 一 logzP(Ce)=1 位 来 区 分 a 不 同 于 其 他 符号 。 要 区 分 b, 需要 用 
一 logsP(b) 二 2 位 。 为 了 区 分 c; 需要 一 logs P(c)=3 位 。 ~ 

构建 一 种 编码 来 识别 x 可 能 需要 一 log;sP(zx) 位 (或 比 这 更 大 的 整数 ， 如 果 2s EE 
要 发 送 的 ) 。 假 设想 要 传送 或 储存 一 个 符号 序列 ， 并 且 知 道 这 些 符 号 的 概率 分 布 。 符 号 工 
的 概率 P(z) 需 要 一 logs P(Cz) 位 。 为 了 发 送 一 个 序列 ， 每 个 符号 平均 需要 

> — P(x) X log P(x) 


WREE., AMAA HR EES E.R EE TT a SB AB Cinforma- 
tion content) BY (entropy). 

类 似 于 条 件 概 率 ， 它 所 需要 的 描述 给 定 证 据 e 的 分 布 的 位 期 望 数 为 

Ke) = > — Pla | © X log, Pl(z|e) 


如 果 存 在 一 个 测试 可 以 区 分 a 为 真 和 a 为 假 的 情况 ， 此 测试 的 信息 增益 Cinformation 
gain) 为 
ICtrue) — (Pla) X Mae) + Pina) X IC7a@)) 
其 中 T(true) 为 在 测试 之 前 需要 位 的 期 望 数 ，P(a) XIa)+ PC 7a) X 1 7a) FMR Za EY 
期 望 数 。 
在 以 后 的 章节 中 ， 我 们 将 对 任务 数 使 用 信息 的 概念 。 
。 EPP. Agent 可 以 选择 一 个 提供 最 多 信息 的 测试 。 
。 在 决策 树 学 习 中 ， 信 息 理论 提供 了 一 个 有 用 的 标准 用 来 选择 属性 划分 : 划分 能 够 
提供 最 大 信息 增益 的 属性 。 它 要 区 分 的 元 素 在 目标 概念 中 取 不 同 的 值 ， 其 概率 是 
由 保存 在 每 个 节点 的 训练 集中 的 每 个 值 的 比例 来 获得 的 。 
。 在 贝 叶 斯 学 习 中 ， 信 息 理论 在 已 知 一 些 数 据 时 ， 为 决定 最 好 的 模型 提供 了 基础 。 


6.2 独立 性 


概率 的 公理 是 非常 弱 的 ， 在 多 许 的 条 件 概率 上 提供 的 约束 很 少 。 例如 ， 如 果 有 个 三 
进 制 变量 ， 就 要 从 任意 得 出 的 条 件 概率 中 为 一 个 完整 的 概率 分 布 分 配 2 一 1 个 数 。 为 了 确 
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[232] 定 任 意 概 率 ， 可 能 需要 启动 一 个 庞大 条 件 概 率 或 可 能 世界 概率 的 数据 库 。 
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有 两 种 主要 的 方法 可 以 克服 对 于 庞大 数目 的 需求 : 

独立 性 ”假设 一 个 命题 Y 的 真实 性 知识 在 其 他 命题 Z 的 情况 下 不 会 影响 到 命题 X 的 
概率 。 我 们 说 XEREZ 的 情况 下 独立 于 Y， 定义 在 下 文中 给 出 。 

BAMMMMER ”没有 其 他 的 知识 ， 假 设 一 切 都 是 尽 可 能 随机 的 。 也 就 是 说 ， 概 率 
分 布 尽 可 能 与 有 用 信息 的 分 布 相 一 致 。 

这 里 详尽 地 论述 上 述 的 第 一 部 分 (请 参阅 下 面 描述 的 “减少 数目 ”的 内 容 )。 

只 要 P(h|e) 的 值 不 为 0 或 1，P(h|e) 的 值 就 不 能 限制 PCh|fAe) 的 值 。 后 者 的 概率 
可 以 在 [0,- 1 内 取 任 意 值 : 如果 SRG. CH1, MR SABA h, EHO. 

依据 概率 论 ， 没 有 理由 说 为 什么 加 拿 大 女王 的 名 字 不 应 该 与 决定 灯 是 否 亮 所 采纳 的 开 
关 位 置 同 等 重要 ， 然 而 ， 领 域 知 识 可 能 告诉 我 们 这 是 不 相干 的 。 

在 本 节 中 ， 我 们 提出 了 一 种 表示 ， 使 我 们 可 以 模拟 世界 结构 ， 当 指定 概率 时 相关 命题 
是 局 部 的 ， 非 直接 相关 变量 可 以 被 忽略 。 开 发 这 种 结构 可 以 进行 高 效 的 推理 。 

一 种 常见 的 定性 知识 是 P(h|e) 二 P(h|fAe) 的 形式 。 这 个 等 式 表 示 了 与 给 定 e FHA 
的 概率 不 相关 。 例 如 ， 伊丽莎白 是 加 拿 大 的 女王 与 开关 % 关闭 时 ws 带电 的 概率 不 相关 。 
这 种 思想 适用 于 随机 变量 ， 正 如 下 面 的 定义 : 

如 果 对 于 所 有 的 x € dom(X), yEdom(Y), y Edom(Y)，zE dom(Z)， 随 机 变量 X 
有 条 件 地 独立 (conditionally independent) 于 给 定 随 机 变量 Z 下 的 随机 变量 了 ,使 得 P(Y= 
yAZ=z)>0, P(Y=y AZ=z)>0, P(X=2|Y=yAZ=z) =P(X=2|Y=y' AZ==z), 
即 给 定 一 个 Z 值 ， 知 道 Y 的 值 不 会 影响 到 对 X 值 的 信念 。 
1) 久 在 有 条 件 限制 下 独立 于 给 定 Z 下 的 了 。 
2) Y 在 有 条 件 限 制 下 独立 于 给 定 Z FOX. 
3) P(X|Y, 2Z) 二 P(X|2Z)。 志 就 是 说 ,在 上 下 交 中 给 定 一 个 避 值 ， 如果 给 定 一 个 六 
将 在 卫 中 得 到 相同 的 概率 ， 与 没有 给 定 了 值 一 样 。 
4) P(X, Y|Z)=P(X|Z) PCW |Z). 
证 明 留 作 练习 。( 见 习题 6. 1) 


减少 数目 


允许 独立 性 表示 和 使 用 最 大 炳 或 随机 世界 之 间 的 区 别 ， 罕 出 了 知识 表示 观点 的 重要 
不 同 : 
。 第 一 种 观点 ， 知 识 表 示 提 供 了 一 种 高 层次 的 建 模 语 言 ， 可 以 让 我 们 用 一 种 合理 自 
然 的 语言 构建 一 个 域 。 根 据 这 一 观点 ， 希 望 知识 表示 设计 者 规定 怎样 使 用 知识 表 
示 语 言 ， 希 望 他 们 能 够 提供 一 份 描述 兴趣 领域 的 用 户 说 明 书 。 
。 第 三 种 观点 ， 知 识 表 示 应 该 允许 添加 有 关 一 个 域 的 任何 知识 ， 知 识 表 示 应 以 常识 . 
的 方式 来 填充 。 根 据 这 一 观点 ， 知 识 表 示 设 计 者 指定 特定 知识 进行 编码 是 不 合 
理 的 。 
用 错误 的 标准 来 判断 知识 表示 不 会 产生 一 罕 公 正 的 评价 。 
对 于 一 个 特定 的 独立 变量 来 说 ， 信 念 网 络 是 一 种 表示 ， 信 念 网 络 应 该 被 看 做 一 种 建 模 
语言 。 通 过 信念 网 络 简洁 表达 出 的 独立 性 可 以 简明 自然 地 表示 许多 领域 。 这 并 不 意味 着 我 
们 仅 投入 大 量 的 事实 (或 概率 ) 就 能 期 待 一 个 合理 的 管 案 ， 必 须 考虑 域 、 涉 及 的 变量 以 及 变 
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量 之 间 呈 现 怎样 的 依赖 关系 。 当 用 这 个 标准 来 评判 时 ， 信 念 网 络 就 形成 了 一 个 有 用 的 表示 
规划 。 

一 旦 定义 信念 网 络 的 网 络 结构 和 变量 域 ， 就 确切 地 给 出 所 需 的 数目 (条 件 概率 )。 用 户 
不 能 只 是 简单 地 添加 任意 的 条 件 概率 ， 必 须 遵 循 网 络 的 结构 。 如 果 提 供 的 信念 网 络 所 需 的 
数字 与 本 地 一 致 ， 整 个 网 络 将 是 一 致 的 。 

相反 ， 最 大 炳 或 随机 世界 方法 可 以 推断 出 绝 大 部 分 与 概率 知识 库 相 一 致 的 随机 世界 ， 
它们 形成 了 第 二 类 的 概率 知识 表示 。 对 于 随机 世界 方法 ,任何 恰巧 可 用 的 数字 都 可 以 增加 
和 使 用 ， 但 是 ， 如 果 多 许 增加 任意 的 概率 ， 知 识 就 不 易 与 概率 公理 相 一 致 。 此 外 ”如果 假 
设 不 明确 就 很 难 证 明 答 案 的 正确 性 。 


如 果 P(X，Y) 王 PCX)P(GY)， 则 变量 X 和 了 了 是 无 条 件 独立 Cunconditionally independ- 
ent) 的 ， 也 就 是 说 ， 如 果 不 给 出 观察 ， 它 们 是 条 件 独立 的 。 注 意 ，X 和 了 无 条 件 独 立 并 不 
意味 着 在 给 定 其 他 信息 Z 时 它们 就 是 有 条 件 独立 的 。 

条 件 独立 对 一 个 域 来 说 是 一 个 有 用 的 假设 ,其 域 通常 会 自然 评定 出 并 且 可 以 给 出 有 用 
的 表示 。 


6.3 信念 网 络 


条 件 独 立 的 概念 可 以 给 出 许多 域 的 简洁 表示 。 思 想 是 ， 给 定 一 个 随机 变量 AX, E X 
条 件 独 立 于 给 定 直接 影响 变量 值 的 其 他 变量 情况 下 ， 也 许 存在 一 个 变量 的 小 集合 直接 影响 
变量 的 值 。 我 们 称 局 部 影响 变量 的 集合 为 马尔 可 夫 筷 (Markov blanket)。 这 种 局 部 性 正 是 
信念 网 络 中 使 用 的 。 信 和 念 网 络 (belief network) 是 随机 变量 集合 条 件 依 赖 的 一 个 直接 的 模 
型 。 在 信念 网 络 中 条 件 独立 的 精确 表示 要 考虑 到 方向 性 。 

要 定义 信念 网 络 ， 首 先 需 要 一 个 代表 模型 所 有 特性 的 随机 变量 集 。 假 设 这 些 变量 为 
{Xis ++, X,}. Ria, BH—-PEBS Xo +, Kne 

链 式 法 则 (命题 6. 3) 显 示 了 如 何 将 一 个 合 取 分 解 为 条 件 概率 ， 


P(X =u A XS u A NX = 2%) = Tr rx. = u |X =u A A Xa = ua) 

或 者 ， 就 随机 变量 和 概率 分 布 而 言 ， 

P(X, Xesta X,) = ITPex |r Xd 

定义 随机 变量 X; 的 父 节点 ， WA parents(X;)， 是 全 序 中 X 前 续 节 点 的 最 小 集合 ， 
使 得 其 余 X 的 前 续 节 点 条 件 独立 于 给 定 parents (X;) 的 Xis BH parents (X;) S 


(Xis 5 Xi}, 使 得 

PCX; | Xeer Xi) = PCX, | parents (X,)) 

如 果 存 在 一 个 以 上 的 最 小 集合 ,任何 最 小 集合 可 以 被 选择 为 父 节 点 。 只 有 当前 续 节点 
中 的 一 些 是 其 他 节点 的 确定 函数 时 ， 才 可 能 存在 一 个 以 上 的 最 小 集合 。 

我 们 可 以 把 链 式 法 则 和 父 节 点 的 定义 合 在 一 起 ， 给 出 


PCX, X25 三 || PCX: | parents(X,)) 
71 


所 有 变量 的 概率 PCX X s X), MARAE f (oint probability distribu- 
tion) 。 信 和 念 网 络 定 义 了 一 个 联合 概率 分 布 的 因 式 分 解 (factorization)， 其 中 条 件 概率 组 成 
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其 相 乘 的 因子 。 

信念 网 络 也 称 为 贝 叶 斯 网 络 (Bayesian network)， 是 一 个 无 向 图 (DAG)， 其 中 的 节点 
是 随机 变量 。 从 每 个 parents XOA X; 元 素 有 一 条 弧 。 与 信念 网 络 相 关联 的 是 条 件 概 率 分 
布 集合 一 一 给 出 其 父 节点 的 每 个 变量 的 条 件 概率 (其 中 包括 那些 无 父母 变量 的 先 验 概 率 ) 。 

因此 ， 信 和 念 网 络 的 组 成 为 : 

。 DAG， 其 中 每 个 节点 被 标记 为 一 个 随机 变量 ; 

。 每 个 随机 变量 对 应 一 个 域 ，; 

。 条 件 概率 分 布 集合 对 于 每 个 变量 X ah PX | parents X)). 

信念 网 络 是 无 环 结构 的 ， 链 式 法 则 分 解 合 取 给 出 顺序 ， 变 量 只 能 把 前 续 节 点 看 成 是 父 
节点 ， 不 同 的 分 解 会 导致 不 同 的 信念 网 络 。 

CG) 6-10] 假设 我 们 要 使 用 诊断 助手 来 诊断 建筑 物 中 是 否 发 生火 灾 ， 这 要 基于 嗜 杂 的 
传感器 信息 和 可 能 的 现场 争论 的 描述 。Agent 接收 到 有 关 是 否 每 个 人 都 离开 大 楼 的 报告 。 
假设 报告 传感器 是 嘲 杂 的 : 有 时 没有 大 批 人 离开 时 它 会 报告 有 离开 (错误 的 积极 )， 有 时 当 
所 有 人 都 离开 了 它 也 不 报告 (错误 的 消极 )。 假 设 火警 响起 可 以 导致 离开 ， 但 这 不 是 一 个 决 
定性 关系 。 自 改 情况 或 发 生火 灾 都 会 影响 报警 。 火 灾 也 会 引起 浓 烟 从 建筑 物 中 升 起 。 

在 以 下 命令 中 ， 假 设 我 们 使 用 的 变量 全 都 是 布尔 型 ; 

。 AMAR REM. Tampering 为 真 。 

。 当 发 生火 灾 时 ，Fire 为 真 。 

。 警 铃 响 时 ，Alarm 为 真 。 

。 SAMH, Smoke HH. 

。 如 果 一 旦 有 大 量 人 口 离开 建筑 物 时 ，Leaving HH. 

。 如 果 有 人 离开 而 产生 报告 ，Report 为 真 。 如 果 无 人 离开 而 产生 报告 ， 则 Report 

为 假 。 

变量 Report 表示 传 感 右 报告 有 人 离开 ,这 种 信息 是 不 可 靠 的 ， 因 为 有 人 发 出 这 样 的 
报告 可 能 是 在 玩 恶 作 剧 ， 或 者 是 给 出 这 样 的 报告 也 没有 人 注意 到 。 引 入 这 个 变量 允许 不 可 
靠 的 传感器 数据 。Agent 知道 传感器 报告 了 什么 ， 但 关于 人 们 离开 大 楼 它 也 只 是 得 到 不 可 
靠 的 证 据 。 

作为 域 的 一 部 分 ， 假 设 如 下 的 条 件 独立 : 

。 Fire 是 有 条 件 独立 于 Tampering (没有 其 他 信息 的 条 件 下 )，。 

。 Alarm 取决 于 Fire 和 Tampering。 也 就 是 

Bi. 我们 不 做 出 有 关 Alarm 怎样 取决 于 其 
给 出 变量 顺序 的 前 续 节 点 的 假设 。 

。 Smoke 只 取决 于 Fire， 它 条 件 独 立 于 
Tampering 和 Fire 是 否 发 生 的 Alarm. 

。 Leaving 只 取决 于 Alarm, 与 Fire 或 
Tampering Ù Smoke 没有 直接 关系 。 也 就 
是 说 ，Leaving 条 件 独立 于 给 出 Alarm 的 
其 他 变量 。 

。 Report L Ahk F Leaving 。 

图 6-1 的 信念 网 络 表现 了 这 些 依赖 关系 。 该 网 
呈现 的 因 式 为 : 图 6-1 例 6-10 关 于 离开 报告 的 信念 网 络 
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P( Tampering, Fire,Alarm, Smoke, Leaving, Report) 

= P( Tampering) X P( Fire) X P(Alarm| Tampering. Fire) 

X P( Smoke | Fire) X P( Leaving | Alarm) X P(Report | Leaving) 

我 们 必须 定义 每 个 变量 的 域 。 假 设 变量 是 布尔 型 的 ， 也 就 是 说 ， 它 们 的 域 为 
{true，false}。 我 们 用 小 写 形式 的 变量 代表 真 ， 用 其 否定 表示 假 。 因 此 ， 举例 Tampe- 
ring 为 真 记 为 tampering，Tampering 为 假 记 为 tampering. 

以 下 的 例子 遵循 条 件 概率 假设 : 

P(tampering) =0. 02 

P( fire)=0. 01 

P(alarm| fire \ tampering) =0.5 

P(alarm | fire \ >tampering) =0. 99 

P(alarm| -fire \ tampering) =0. 85 

P(alarm| fire N tampering) =0. 0001 

P(smoke | fire)=0. 9 

P(smoke | ~fire)=0, 01 

P( leaving | alarm)=0. 88 

P(leaving | ~alarm)=0. 001 

P(report | leaving) =0. 75 

P(report| >leaving)=0. 01 a 

【 例 6-11] 考虑 图 1-8 接线 的 例子 。 假 设 我 们 取 灯 是 否 亮 的 变量 ,开关 位 置 的 变量 ， 
灯 和 开关 是 否 有 故障 的 变量 ; 是 否 有 电源 的 变量 。 变 量 在 图 6-2 中 定义 。 

我 们 选择 一 个 顺序 ， 将 导致 变量 的 原因 放 在 变量 之 前 。 例 如 ， 决 定 灯 是 否 亮 的 变量 排 
在 灯 是 否 工作 正常 的 变量 和 灯 是 否 有 电 的 变量 之 后 。 

灯 是 否 亮 只 取决 于 电源 线 o PESAH, TL 是 否 正 常 工作 。 其 他 变量 ， 如 开关 
s 的 位 置 和 灯 L 是 否 亮 ,或 谁 是 加 拿 大 女王 ， 都 是 不 相关 的 。 因 此 ，Li_iiz 的 父 节 点 是 wo 
和 L,_st. 

考虑 变量 WW,， 表 示 电 源 线 wm 中 是 否 有 电 。 如 果 我 们 知道 电源 线 mm Mo. PESA 
电 ， 知 道 开 关 s 的 位 置 和 开关 是 否 正常 工作 ， 那 么 其 他 变量 值 (除了 工 !_Liz) 就 不 会 影响 对 
电源 线 o PESA BEHE. Ke, Wo 的 父 节 点 为 S。_ Pos、S。st、Wi MW: 


图 6-2 显示 了 考虑 每 个 变量 独立 性 导致 的 信念 网 络 结果 。 信 念 网 络 还 包含 变量 的 域 ， 


如 图 中 所 示 ， 也 包括 给 出 其 父 节点 的 每 个 变量 的 条 件 概率 。 

具体 说 明 如 下 : 

。 对 于 每 根 电线 w:， 有 一 个 随机 变量 W;， 其 域 为 {live，dead}， 它 表示 线 ww PRE 
有 电 。Wi 二 live 意味 着 线 w PAH. Wi=dead 意味 着 w 中 没 电 。 

。 Outside_power, FLA (live, dead}， 表 示 建 筑 物 是 否 来 电 。 

。 对 于 每 个 开关 s;， 变 量 S;_pos BRE s: 的 位 置 ， 它 的 域 为 {up， down}. 

。 对 于 每 个 开关 so FER S,_st 表示 开关 s; IRE., CRA (ok, upside doun, short, 
intermittent, broken}, S; st=ok 时 表示 开关 5 正常 工作 。S;_st 一 wpside_dowm 表示 
开关 s 安装 上 下 颠倒 了 。S;_st 二 broken 表示 开关 5 断 开 ， 不 允许 电流 流入 。 

。 对 于 每 个 断路 器 cb, 来 说 ， 变 量 Cb;_st 的 域 为 {on，off}。Cb;_st 二 on 表示 cb; 可 
以 流入 电流 ，C6b;_st 二 off 表示 ch, 不 可 以 流入 电流 。 

© 对 于 每 个 灯 L YE Lst 的 域 为 {ok，intermittent，broken}， 表 示 灯 的 状态 。 
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Li_st=ok 表示 灯 1; WRASSE. L;_st=intermittent 表示 灯 L 如 果 有 电 会 间 
KEZE, Li_st=broken 表示 灯 li 不 能 正常 工作 。 

对 于 变量 W, WET FERRE: 

PCW, =live| S,_pos=up N S,_st=ok NW, = live) 

PCW, =live| S,_pos=up A S,_st=ok \W;=dead) 

PCW, =live| S,_pos=up A S\_st=upside_down NW, = live) 


P(W, = live | S;_pos=down A S,_st=broken NW; =dead) 

S,_pos 有 2 个 值 ，Si_og #5 “MA, W 有 2 个 值 ， 所 以 指定 一 个 值 给 W Live 时 有 
2X5X2=20 种 不 同 的 情况 。 只 要 考虑 到 概率 论 ， 这 20 种 情况 下 Ws = live 的 概率 可 以 任 
意 分 配 。 当 然 ， 域 知识 限制 了 什么 值 才 是 有 意义 的 。W =dead 的 值 可 以 从 每 一 个 这 些 情 
况 中 的 Wi 二 live 的 值 中 计算 得 出 。 

由 于 变量 S st 没有 父 节 点 ， 它 需要 指定 所 有 概率 的 一 个 先 验 分 布 ， 除了 其 中 的 一 个 
值 。 剩 余 值 可 以 由 所 有 概率 和 为 1 的 约束 来 推导 。 因 此 ， 要 指定 S st 的 分 布 ， 必 须 指定 
以 下 5 个 概率 中 的 4 个 : 

P(S! _# = ok) 

P(S;_st = upside_down) 

P(S,;_st = short) 

P(S,_st = intermittent ) 

P(S,_st = broken) 
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图 6-2 图 18 中 电气 领域 的 信念 网 络 
其 他 变量 类 似 表示 。 < 
信念 网 络 是 一 个 条 件 独 立 的 图 形 表示 。 其 独立 性 允许 我 们 描述 出 其 对 图 形 的 直接 影 
响 ， 并 规定 哪些 概率 必须 指定 。 任 意 的 后 验 概率 可 以 从 网 中 推 得 。 
嵌入 在 信念 网 络 中 的 独立 性 假设 如 下 : 每 个 随机 变量 条 件 独立 于 给 出 其 父 节点 的 子 节 
点 。 也 就 是 说 ， 如 果 随 机 变量 X 的 父 节点 为 Y，…，Y,， 那 么 ， 所 有 不 是 X 的 子 节点 的 


随机 变量 都 条 件 独立 于 给 定 Y, e EET x, 的 X: 
PCX |Y; sy ,YR)=PCX | Yi ee Vn) 
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如 果 尺 不 包含 的 子 节点 。 对 于 这 个 定义 ,我 们 将 X 包含 于 其 子 节点 本 身 。 等 式 右 
侧 是 信念 网 络 部 分 的 概率 的 形式 。 只 要 不 是 X 的 子 节点 ，R 可 能 包含 和 的 前 面 的 节点 和 
其 他 节点 。 独 立 性 假设 指出 ， 知 道 了 XX 的 父 节 点 就 可 以 获取 所 有 非 子 节点 变量 的 影响 。 

通常 情况 下 ， 我 们 就 将 DAG 作为 一 个 信念 网 络 。 这 样 做 ， 记 住 每 个 变量 的 域 和 条 件 
概率 分 布 集 很 重要 ， 也 是 网 络 中 的 一 部 分 。 

对 于 每 个 变量 指定 的 概率 数 在 变量 父 节点 数目 中 是 指数 的 。 独 立 性 假设 是 有 用 的 ， 因 
为 直接 影响 男 一 个 变量 的 变量 数 是 很 小 的 。 应 该 将 变量 进行 排序 ， 这 样 节点 就 可 以 拥有 尽 
可 能 少 的 父 节 点 。 


信念 网 络 和 因果 关系 


信念 网 络 经 常 被 称 为 因果 网 络 (causal network)， 并 且 是 因果 关系 的 一 种 很 好 的 表示 。 
因果 模型 可 以 预测 中 间 结 果 。 假 设 你 想到 一 个 域 的 因果 模型 ， 此 域 是 就 随机 变量 集合 而 指 
定 的 。 对 于 每 对 随机 变量 X 和 X., wR X AX. 存在 直接 的 因果 关系 ， 从 羡 ! 到 X: 
添加 一 个 弧 ( 例 如 ， 在 其 他 变量 语 境 中 改变 XX! 可 以 间接 影响 到 X:， 这 不 能 通过 获取 这 些 
中 间 变 量 来 建立 模型 ) 。 我 们 希望 这 个 因果 模型 能 够 遵从 信念 网 络 中 的 独立 性 假设 。 因 此 ， 
所 有 信念 网 络 的 结论 是 有 效 的 。 

我 们 也 期 望 这 样 的 图 是 无 环 的 。 如 果 考 虑 到 随机 变量 是 代表 特定 事件 ， 而 非 事件 的 类 
型 ， 那 么 这 种 假设 是 合理 的 。 例 如 ， 考 虑 一 个 因果 链 ,“ 有 压力 ?导致 “工作 效率 低下 "， 反 
过 来 ， 导 臻 “压力 更 大 ”。 为 了 打 彼 这 种 明显 的 周期 性 循环 ， 我 们 可 以 在 不 同 的 阶段 表现 
“有 压力 ”， 就 好 像 不 同 的 时 间 有 不 同 的 随机 变量 一 样 。 过 去 茶 时 有 压力 会 使 你 不 能 正常 工 
作 ， 也 导致 在 未 来 也 会 有 压力 。 变 量 应 满足 明确 性 原则 (clarity principle) 和 一 个 明确 的 意 
义 。 变 量 不 应 该 被 看 做 是 事件 类 型 。 

信念 网 络 本 奥 没 有 什么 因果 关系 ， 它 可 以 代表 非 因 果 独 立 性 ， 但 它 似乎 特别 适合 于 域 
中 存在 因果 关系 的 情况 。 添 加 代表 局 部 的 因果 关系 的 弧 ， 可 以 产生 一 个 小 信念 网 络 。 
图 6-2 的 信念 网 络 表 示 出 对 于 一 个 简单 域 来 说 这 是 怎么 形成 的 。 

因果 网 络 模 拟 了 干预 因素 (intervention)。 如 果 人 为 地 给 一 个 变量 赋 一 个 特定 的 值 ， 变 
量 的 子 节点 (不 是 其 他 节点 ) 会 受到 影响 。 

最 后 ， 可 以 看 到 信念 网 络 中 的 因果 关系 与 5.7 节 中 讨论 的 因果 关系 和 证 据 推 理 有 怎样 的 
关系 。 因 果 信 和 念 网 络 可 以 看 做 在 因果 方向 上 的 一 种 公理 化 方式 。 信 念 网 络 中 的 推理 对 应 于 推 
出 原因 并 从 中 作出 预测 。5.7 节 中 讨论 的 基于 逻辑 的 外 展 观点 和 信念 网 络 两 者 之 间 存 在 一 种 
直接 映射 : 信念 网 络 可 以 在 可 能 假设 下 以 某 种 概率 模拟 逻辑 程序 。 这 将 在 14.3 THR. 


注意 在 信念 网 络 独立 性 定义 的 约束 “每 个 随机 变量 条 件 独立 于 给 出 其 父 节 点 的 非 子 节 
点 ”。 如 果 尺 包含 变量 X 的 子 节点 ， 独 立 性 假设 是 不 能 直接 应 用 的 。 

【 例 6-12] 在 图 6-2 中 ， 变 量 Si_zpos、Sa_ 5 MW, 是 变量 W 的 父 节 点 。 如 果 知 道 
S;_pos, S;_st MW; WH. BAL BASE. Ch,_st 的 值 是 多 少 都 不 会 影响 对 于 电源 线 w 
中 是 否 有 电 的 信念 。 但 是 ， 即 使 知道 了 Si_pos、Ss_st 和 W; 的 值 ， 知 道 i 是 否 亮 会 潜在 
地 改变 电源 线 w, 是 否 有 电 的 信念 ， 独 立 性 假设 不 能 直接 应 用 。 

变量 S，zos 没有 父 节点 ， 因 此 ， 信 和 念 网 络 中 的 嵌入 的 独立 性 指定 ， 对 于 任意 给 定 的 A, 
P(S,_pos=up|A)=P(S,_pos=up), 不 小 及 S pos 的 子 节点 。 例 如 ， 如 果 入 包括 S,_pos= 
up 的 子 节点 ， 比 如 说 A 是 S，_pos 二 wp 人 LL_lit 王 true， 独 立 性 假设 不 能 直接 应 用 。 < 
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信念 网 络 规定 从 任意 条 件 概 率 可 以 推 得 联合 概率 分 布 。 在 网 络 中 可 以 在 任意 其 他 变量 
值 的 条 件 限制 下 查询 任意 变量 的 条 件 概率 。 这 通常 是 通过 对 一 些 变量 进行 观察 并 且 查 询 其 
他 变量 来 完成 。 
【 例 6-13] 考虑 例 6-10。 每 个 变量 的 先 验 概率 (没有 证 据 情 况 下 ) 可 以 使 用 下 一 节 的 方 
法 来 计算 。 下 面 的 条 件 概率 遵从 例 6-10 的 模型 ,保留 小 数 点 后 三 位 : 
Pltampering)=0, 02 
P(fire)=0. 01 
P(report)=0. 028 
P( smoke) =0. 0189 
观察 报告 给 出 了 以 下 结果 : 
P(tampering | report) =0. 399 
P< fire | report)=0. 2305 
P(smoke | report)=0. 215 
正如 预期 的 那样 ， 通 过 此 报告 ，tampering 和 fire 的 概率 都 增加 。 因 为 fire 的 概率 
增加 ，smoke 的 概率 也 增加 了 o 
假定 观察 到 smoke: 
P(tampering | smoke) =0. 02 
Pl fire | smoke) =0. 476 
242 P(report | smoke) =0. 320 
TER. WHE) smoke 不 会 影响 到 tampering 的 概率 ; Mili, report 和 fire 的 可 能 性 会 增加 。 
假设 report 和 smoke 都 观察 到 了 : 
P(tampering | report A smoke) =0. 0284 
P( fire | report \ smoke) =0. 964 
观察 两 者 更 能 确定 fire 的 发 生 率 。 然 而 在 report 情况 下 ，smoke 的 出 现 会 使 tampe- 
ring 的 概率 更 小 。 这 是 因为 report 是 出 自 对 fire 的 解释 ， 导 致 真实 情况 发 生 率 更 高 。 
假设 现在 观察 到 的 是 report 并 非 是 smoke: 
P(tampering | report \ ~smoke)=0. 501 
PC fire | report A ~smoke) =0. 0294 
在 report 情况 下 ，fire 的 概率 小 ， 所 以 tampering 增加 概率 来 解释 report . 
这 个 例子 说 明了 信念 网 络 独立 性 假设 是 怎样 给 出 常识 性 的 结论 ， 以 及 为 什么 是 一 种 信 
念 网 络 独立 性 假设 的 结果 。 
这 个 网 络 可 以 以 多 种 方式 来 使 用 : 
。 给 定 条 件 如 下 : 开关 和 断路 器 正常 ， 外 部 电源 值 和 开关 位 置 已 知 。 该 网 络 可 以 模 
拟 灯 是 如 何 工作 的 。 
。 给 定 外 部 电源 的 值 和 开关 的 位 置 ， 网 络 可 以 推断 出 任何 输出 的 可 能 性 一 一 例如 ， 
L, 亮 的 概率 。 
。 给 定 开 关 的 值 和 灯 是 否 亮 起 ， 每 个 开关 或 断路 器 在 任何 特定 状态 的 后 验 概 率 可 以 
推断 出 来 。 
。 给 出 一 些 观察 ， 可 以 使 用 网 络 来 进行 回 推 从 而 决定 最 佳 开 关 位 置 。 
。 给 出 开关 位 置 、 输 出 和 一 些 中 间 值 ， 可 以 使 用 网 络 来 决定 网 络 中 任意 其 他 变量 的 
概率 。 < 
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构建 信念 网 络 


要 代表 一 个 信念 网 络 中 的 域 ， 网 络 设计 师 必 须 考 虑 以 下 问题 ， 
1) 相关 的 变量 是 什么 ? 设计 师 要 特别 考虑 : 
。 在 域 中 Agent 会 观察 到 什么 ， 观 察 到 的 每 一 点 都 是 一 个 随机 变量 ， 因 为 Agent 必 
须 能 对 它 所 观察 到 的 每 样 东 西 都 能 控制 。 
。 给 定 观察 ，Agent 要 对 它 所 感 兴趣 的 信息 知道 其 概率 ， 每 个 特点 都 要 视 为 变量 来 获得 。 243 
。 其 他 隐藏 的 变量 (hidden variable) 或 潜在 的 变量 (latent variable) 不 会 被 观察 到 或 查 
询 到 ， 但 是 这 使 得 模型 更 简单 化 。 这 些 变量 要 么 导致 依赖 关系 ， 要 么 减少 条 件 概 
率 规格 的 大 小 。 
2) 这 些 变量 应 该 取 什 么 样 的 值 ? 这 需要 考虑 Agent 推理 达到 的 详细 程度 ， 来 回答 所 
遇 到 查询 的 种 类 。 
对 于 每 个 变量 来 说 ， 设 计 人 员 应 该 指定 其 域 中 所 采用 值 的 含义 。 在 域 中 对 于 一 个 有 特 
殊 值 的 变量 来 说 什么 必须 为 真 应 该 满足 明确 性 原则 。 明 确 记 录 所 有 变量 的 含义 和 它们 可 能 
的 值 是 一 个 好 主意 。 只 有 在 Agent 想 从 数据 中 学 习 的 隐藏 变量 的 值 存在 时 ， 设 计 者 才 不 想 
这 么 做 ( 见 11. 2.2 节 )。 
3) 变量 之 间 是 什么 关系 ?这 应 由 本 地 影响 为 来 表示 ， 并 且 使 用 亲子 关系 进行 建 模 。 
4) 变量 的 分 布 是 怎样 依赖 于 本 地 影响 它 的 变量 的 (其 父 节 点 )? 这 是 在 条 件 概率 分 布 
下 表示 的 。 
【 例 6-14] 假设 希望 诊断 助手 能 够 推断 出 患者 的 气喘 和 咳嗽 的 可 能 原因 ， 如 例 5-30。 
。 Agent 可 以 观察 到 咳嗽 、 气 喘 、 发 烧 ， 并 且 询 问 病 人 是 否 吸 烟 。 因 此 ， 有 对 应 这 
些 因素 的 变量 。 
* Agent 希望 了 解 其 他 病人 的 症状 和 各 种 可 能 的 治疗 方法 ; 如 果 是 这 样 ， 这 些 也 应 
该 是 变量 (尽管 它们 在 本 例 中 不 使 用 ) 。 
。 存在 有 用 的 变量 可 预测 出 病人 的 结果 。 医 学 界 已 命名 的 这 些 特点 及 对 其 症状 进行 
特征 化 。 在 这 里 ， 我 们 将 使 用 支气管 炎 和 流感 变量 。 
。 现在 考虑 这 些 变 量 直 接 依 赖 于 什么 。 患 者 是 否 哮喘 取决 于 他 们 是 否 有 支气管 炎 ， 
他 们 是 否 咳 嗽 取决 于 他 们 是 否 有 支气管 炎 。 上 患者 是 否 有 支气管 炎 取 决 于 他 们 是 否 
有 流感 ， 以 及 他 们 是 否 吸 烟 。 他 们 是 否 有 发 烧 取 决 于 他 们 是 否 有 流感 。 图 6-3 描 
述 了 这 些 依赖 关系 。 





图 6-3 例 6-14 的 信念 网 络 


。 选择 变量 的 值 ， 涉 及 要 考虑 到 所 推断 东西 的 详细 程度 。 可 以 给 每 个 疾病 或 症状 的 
严重 程度 进行 编码 ， 把 它们 作为 变量 的 值 。 例 如 ， 对 于 气喘 变量 可 以 使 用 重度 、 
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中 度 、 轻 度 ， 或 无 气喘 。 例 如 ,通过 对 疾病 的 所 有 图 形 进 行 表征 ， 可 以 在 一 个 较 
低 的 抽象 层次 建立 疾病 的 模型 。 为 了 便于 说 明 ,， 我 们 将 在 一 个 非常 抽象 的 层次 上 
建立 一 个 域 ， 只 考虑 症状 和 疾病 的 存在 或 不 存在 。 每 一 个 变量 将 其 域 为 
{true，false}) 的 布尔 值 ， 表 示 相 关 的 疾病 或 症状 的 存在 或 不 存在 。 
。 评定 每 个 变量 是 怎样 依赖 于 其 父 节 点 ， 这 是 要 靠 给 出 其 父 节点 的 每 个 变量 的 条 件 
概率 来 给 定 : 
P( 流 感 ) 二 0, 05 
P( 吸 烟 )= 二 0,2 
PCR FG | HER I=O. 3 
PORI | 非 流 感 ) 一 0. 001 
PIÈ A | 流感) 一 0.9 
了 (发 关 | 非 流感 ) 一 0. 05 
P( 支 气管 炎 | 流感 人 吸烟 ) 一 0. 99 
P( 支 气管 炎 | 流感 人 不 吸烟 ) 一 0.9 
P( 支 气管 炎 | 非 流感 入 吸烟 ) 二 0.7 
P( 支 气管 炎 | 非 流感 人 不 吸烟 ) 二 0.0001 
P( 咳 嗽 | 支气管 炎 ) 二 0. 8 
PCR | 无 支气管 炎 ) 一 0.07 
PCA | KA R)=0. 6 
PCA HG | 无 支气管 炎 ) 一 0.001 

通过 对 症状 观察 和 故障 或 疾病 的 后 验 概率 来 进行 诊断 (diagnosis) 过 程 。 

这 个 例子 也 说 明了 另 一 个 喜欢 辩解 并 且 与 复杂 诊断 相 比 更 偏爱 简单 诊断 的 例子 。 

在 任何 观察 之 前 ,我 们 可 以 计算 ( 见 下 一 节 ) 几 个 显著 的 数字 ，P (吸烟 ) 二 0,2， 
P( 流 感 ) 二 0.05，P( 支 气管 炎 ) 二 0.18。 一旦 观察 到 气 螨 ， 以 上 三 者 发 生 的 概率 更 高 : 
P( 吸 烟 | 气 路 ) 二 0.79，P( 流 鳄 | 气 路 ) 二 0, 25, PCRAER| 4%) —0. 992 

假设 观察 到 气喘 和 发 烧 : 已 (吸烟 | 气喘 人 发 烧 )= 王 0.32， 忆 (流感 | 流感 人 发 烧 ) 一 0. 86， 
王 (支气管 炎 | 气 喘 人 人 发烧) 一 0.998。 注 意 ， 像 例 5-30 那样 ， 当 观察 到 发 烧 时 ， 是 怎样 暗示 
出 有 流感 的 ， 同 样 也 揭示 了 吸烟 的 行为 。 < 

【 例 6-15) 考虑 图 6-2 PAIR Mae. ER, AAR h i A Ih Sr E B : 
DAG 指出 灯 、 开 关 、 断 路 器 是 独立 坏 掉 的 。 为 了 建立 开关 是 如 何 坏 掉 的 依赖 性 模型 ， 可 以 
添加 更 多 的 弧 也 可 以 是 更 多 的 节点 。 例 如 ， 如 果 灯 没有 独立 性 的 坏 掉 ， 那 是 因为 它们 是 同一 
批 生产 的 ， 可 以 添加 额外 的 节点 来 传达 这 种 依赖 关系 ， 可 以 添加 一 个 节点 表示 这 些 灯 都 来 自 
一 批 好 的 生产 还 是 坏 的 生产 ， 其 父 节 点 是 List 和 LL_st。 该 灯 现 在 可 以 依赖 性 地 坏 掉 了 。 当 
有 证 据 证 明 ， 一 个 灯 坏 了 ， 那 么 它 同一 批 次 为 坏 的 可 能 性 会 增加 ， 从 而 其 他 灯 也 是 坏 的 可 能 
性 就 更 大 了 。 如 果 不 确 定 这 些 灯 是 否 来 自 同 一 批 次 ， 也 可 以 添加 一 个 节点 来 表示 。 重 点 是 信 
念 网 络 提供 了 一 种 独立 性 的 规格 。 可 以 让 我 们 以 一 种 自然 、 直 接 的 方式 来 建立 依赖 性 模型 。 

该 模型 表明 ， 没 有 电线 短路 或 是 房子 接线 与 图 不 同 的 可 能 性 。 特 别 是 ， 它 表明 w 对 
于 ws 来 说 不 会 短路 ， 所 以 wo 从 w 中 来 电 。 可 以 添加 额外 的 依赖 关系 ， 给 每 一 个 可 能 的 
短期 建 模 。 另 一 种 方法 是 增加 一 个 额外 的 节点 ， 表 明 该 模型 是 合适 的 。 从 这 个 节点 的 弧 会 
导致 每 个 变量 代表 电线 的 电源 和 每 个 灯 中 的 电源 。 当 模型 适合 时 ， 可 以 使 用 例 6-11 的 概 
率 。 当 模型 不 适合 时 ， 可 以 指定 每 根 电线 和 灯 随 机 地 工作 。 当 存在 与 原始 模型 不 适合 的 观 
察 时 ， 就 不 可 能 或 肯定 不 能 给 出 模型 ， 模 型 不 适合 的 概率 会 增加 。 < 
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【 例 6-16] 假设 开发 一 个 帮助 系统 (help system) ， 基 于 用 户 在 查询 帮助 系统 输入 的 关 
键 词 来 确定 用 户 感 兴趣 的 帮助 页 。 

系统 将 观察 用 户 提 供 的 词 。 假 设 我 们 不 想 建立 句子 结构 ， 但 是 假设 词语 集 就 足以 确定 
帮助 页 面 ， 用 户 可 以 给 定 多 个 单词 。 一 种 表示 方法 是 给 每 一 个 词语 赋 一 个 布尔 变量 ， 因 
此 ， 当 用 户 使 用 查询 时 ， 标 有 able, absent, add, zoome. 的 词语 其 值 为 真 ， 当 用 户 不 
使 用 时 ， 其 值 为 假 。 

我 们 感 兴趣 的 是 用 户 想 要 哪 种 帮助 页 面 。 假设 用 户 仅 对 一 个 帮助 页 面 感 兴 趣 ， 因 此 ， 
构造 一 个 节点 吾 ， 甚 域 为 所 有 帮助 页 面 { 和 a ，…， 心 } 的 集合 是 合理 的 。 

一 种 表示 方法 是 朴素 贝 叶 斯 分 类 (naive Bayesian classifier)。 朴 素 贝 叶 斯 分 类 器 是 一 
个 拥有 单 节点 (类 ) 的 信念 网 络 ， 其 直接 影响 其 他 变量 ， 并 且 其 他 变量 对 于 给 出 的 类 是 独立 
的 。 图 6-4 显示 了 一 个 有 关 帮 助 系统 的 朴素 贝 叶 斯 分 类 器 ， 其 中 用 户 感 兴趣 的 帮助 页 面 H 
为 一 个 类 ， 其 他 节点 代表 用 户 在 查询 中 使 用 的 词语 。 在 这 个 网 络 中 ， 查 询 中 所 用 的 词 依赖 
于 用 户 感 兴趣 的 帮助 页 面 ， 并 且 这 些 词 对 于 给 定 的 帮助 页 面 是 相互 条 件 依赖 的 。 





图 6-4 fil 6-16 的 朴素 信念 网 络 


对 于 每 个 帮助 页 面 h;， 在 没有 任何 信息 的 情况 下 ， 网 络 用 P(hi) 表 示 用 户 想 要 帮助 页 
面 h; 的 程度 。 用 户 有 一 些 特殊 问题 需要 帮助 ， 根 据 帮 助 的 程度 ， 可 以 获得 信息 。 网 络 假 


设 用 户 真实 地 对 一 个 页 面 感 兴趣 ， 因 此 此 时 DP ih) m=. 


网 络 也 要 求 ， 对 于 每 个 词 w; 和 每 个 帮助 页 面 h;， 概 率 用 Pw, | hi) 表 示 。 这 些 值 看 
起 来 似乎 很 难 查询 ， 但 是 我 们 可 以 使 用 几 个 启发 式 方法 。 这 些 数 的 平均 值 可 用 查询 中 词 的 
平均 数目 除 以 词 的 总 数 。 当 询问 帮助 页 面 时 ， 我 们 希望 出 现在 帮助 页 面 的 词 比 不 出 现在 帮 
助 页 面 的 词 更 加 可 用 。 可 能 存在 和 人 们 经 常 使 用 的 页 面相 关联 的 关键 词 ， 也 可 能 存在 这 样 
一 些 词 ， 它 们 经 常 被 使 用 ， 但 是 独立 于 用 户 感 兴趣 的 帮助 页 面 。 例 7-13 显示 了 网 络 的 概 
率 分 布 怎 样 从 经 验 中 得 到 ， 

对 于 查询 中 词 的 集合 ， HREN PRAEAN, 未 出 现在 查询 中 的 词 被 视 为 假 。 
例如 ， 假 如 帮助 文本 是 “the zoom is absent2”， 词 “the”、“zoom” “is”, “absent” ak mf 
真 ， 其 他 的 词 将 被 赋予 假 。 si lca aii Soin a 且 最 有 可 能 的 几 个 帮助 主题 能 名 
显现 给 用 户 。 

一 些 词 ， 如 “the” 和 “is” 可 能 不 如 那些 和 帮助 主题 相关 ， 但 是 和 它们 有 相同 条 件 概率 的 
其 他 词汇 ， 这 些 词 在 模型 中 会 被 去 除 。 没 有 被 预期 到 出 现在 查询 中 的 词 也 会 从 模型 中 
去 除 。 

注意 到 ， 条 件 是 词 没有 出 现在 查询 中 。 例 如 ， 如 果 hi 页 是 关于 打印 问题 ,我 们 可 能 
期 望 想 要 h1; 页 的 用 户 使 用 “print” 这 个 词 。 在 查询 中 “print” 词 不 存在 是 用 户 不 想 要 jx 页面 
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的 一 个 强 有 力 的 证 明 。 

帮助 页 面 中 词 的 独立 性 是 一 个 很 强 的 假设 。 这 个 假设 并 没有 应 用 到 像 “《not” 这 样 的 词 
E, 在 这 种 情况 下 ， 词 “not”" 和 什么 相关 是 重要 的 。 假 如 入 们 正在 间 一 些 旬 子 ， 句子 中 的 
词 不 会 条 件 独立 于 名 中 的 其 他 词 ， 因 为 一 个 词 的 概率 依赖 于 句 中 的 上 下 文 环境 。 可 能 存在 
一 些 互相 补充 的 词 ， 在 这 种 情况 下 ,希望 用 户 使 用 其 中 的 一 个 而 不 使 用 男 一 个 (例如 
“type” 和 “write”)， 和 希望 一 起 使 用 的 词 ( 例 如 ,，“go” 和 “to”)。 这 些 情况 都 违反 了 独立 性 
假设 。 至 于 违反 假设 什么 程度 会 破坏 系统 的 实用 性 ， 这 是 一 个 经 验 的 问题 。 < 


6.4 概率 推理 


通常 ， 主 要 的 概率 推理 任务 是 在 给 定 一 些 证 据 条 件 下 ， 计 算 查 询 变 量 的 后 验 概 率 分 
布 。 不 幸 的 是 ， 即 使 在 绝对 误差 (不 到 0. 5) 或 固定 的 乘 数 因 子 条 件 下 ， 信 念 网 络 中 后 验 概 
率 的 评估 问题 也 是 一 个 NP 难 问题 ， 因 此 ， 一 般 的 高 效 执行 将 不 会 有 效 。 

信念 网 络 中 概率 推理 的 主要 方法 如 下 : 

。 利用 网 络 的 结构 。 这 种 方法 是 变量 消除 算法 的 典型 代表 ， 以 后 将 详细 说 明 。 

。 基于 搜索 的 方法 。 通 过 列举 一 些 可 能 的 领域 ， 后 验 概 率 可 以 从 生成 的 领域 估 测 到 。 

通过 计算 没有 考虑 到 的 领域 的 概率 分 布 ， 在 后 验 概 率 中 误差 的 范围 可 以 被 估计 到 。 
这 种 方法 适用 于 分 布 是 极端 的 情况 (所 有 的 概率 接近 于 0 或 接近 1)， 如 发 生 在 工程 
系统 中 。 

。 变 分 推理 (variational inference)， 它 的 思想 是 找到 一 个 容易 计算 的 问题 的 近似 值 。 

首先 选择 一 个 比较 容易 计算 的 表示 类 。 这 个 类 要 和 不 连通 的 信念 网 络 的 集合 一 样 
简单 (没有 弧 )。 下 一 步 ， 试 图 找到 一 个 最 接近 原始 问题 的 类 成 员 。 也 就 是 说 ， 找 
到 一 个 容易 计算 的 分 布 ， 这 个 分 布 要 尽 可 能 地 接近 后 验 分 布 且 这 个 分 布 能 够 被 计 
算 。 因 此 ， 问题 简 化 为 最 小 化 误差 的 最 优化 问题 。 

。 随机 模拟 。 在 这 些 方 法 中 ， 根 据 概率 分 布 产生 随机 案例 。 通 过 将 这 些 随机 案例 当 
做 一 系列 的 样本 集合 ， 此 时 关于 任意 变量 组 合 的 边缘 分 布 能 够 被 估计 。 在 6.4.2 
节 我 们 介绍 了 随机 模拟 方法 。 

在 本 书 中 ， 我 们 仅仅 介绍 了 第 1 种 和 第 4 种 方法 。 


6.4.1 信念 网 络 中 的 变量 消除 


这 一 部 分 介绍 了 在 一 个 任意 结构 的 信念 网 络 中 ， 找 到 关于 一 个 变量 的 后 验 分 布 的 算 
法 。 许 多 准确 有 效 的 算法 能 被 视 为 此 算法 的 优化 。 这 个 算法 可 以 视 为 满足 约束 问题 
(CSPs) 的 变量 消除 (VE) 算 法 或 者 满足 软 约 束 的 VE 算法 的 一 个 变异 版 本 。 

此 算法 建立 在 一 种 思想 之 上 ， 即 信念 网 络 中 特别 指出 了 联合 概率 分 布 的 一 个 因 式 
分 解 。 

在 给 出 此 算法 之 前 ,我们 定义 了 一 些 因 式 和 操作 ， 进 而 以 它们 为 操作 对 象 。P(X |Y) 
是 一 个 包含 变量 X 和 了 的 实数 变量 ， 对 于 给 定 的 和 值 和 了 了 值 ， 其 表示 对 于 给 定 值 Y， 关 
于 X 值 的 条 件 概率 。 正 如 因 式 的 思想 ， 变 量 函 数 的 思想 由 此 产生 了 。 在 信念 网 络 中 ，VE 
算法 通过 控制 因 式 来 计算 后 验 概率 。 

一 个 因 式 表示 从 一 个 随机 变量 元 组 映射 到 一 个 实数 的 函数 。 对 于 OKs ety Xi), FE 
E Xo +, X 表示 因 式 了 的 变量 且 卫 是 关于 XX! ，…，X; 的 一 个 因 式 。 
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W(X, +, 吕 ) 是 一 个 国武 ， 每 个 邮 BX, 域 的 一 个 元 素 。 当 每 个 X, 有 一 个 值 时 ， 
一， 一 w，*“，XX) 王 VW) 就 表示 一 个 数 。 因 式 的 一 些 变量 能 被 赋值 进而 产生 一 个 关于 其 
他 变量 的 新 因 式 。 例如 ， f(X—=s Kes ‘ts X;) 有 时 记 为 fX X, “3 Xj)x,=», + CEK 
FX 28"; X; 的 一 个 因 式 ， UY EX 变量 域 的 一 个 元 素 。 

【 例 6-17] 图 6-5 以 图 表 形 式 显示 了 关于 变量 X,Y. ZH—-TARr(X, Y, Z), 
它 假设 每 个 变量 拥有 一 个 三 值 域 {t，f}。 图 中 给 出 了 关于 Y、Z 的 因 式 xr(X=t,，Y,，2) 
HEAR., ZMK, r(X=t, Y, ZZ= 有 是 关于 YY 的 因 式 , rX=t, Y=f, Z=)Æ— 
TK 





e my 
f 


r(X=t, Y=f, Z=f) =0.8 
As-5 因 式 和 赋值 的 例子 < 
因 式 能 做 相 乘 运算 。 假 设 广 和 矿 是 因 式 ， 方 是 包含 变量 XX ，…，X; MYL» os Y; 
的 因 式 ， fz 是 包含 变量 了， T x; Al Z; > try Ly 的 因 式 。 Yi, sar Y; Æ fy 和 fe 的 公 
共 变 量 ， fi 和 fe 的 乘积 (product) 记 为 fı X fos 它 是 关于 变量 单元 X;， sy Ay Yio 2% 
Y;; Zis waa Zp 的 因 式 ， 定义 如 下 : 
(fi X fo OK oe XEN) ott YL ott Le) = fi CX ore Me VG tes VG) X fa Va vt YZ Zi) 
条 件 概率 及 因 式 表示 | 
条 件 概 率 被 视 为 是 相关 变量 的 函数 。 一 个 因 式 表示 关于 变量 的 函数 ， 因 此 ， 一 个 困 式 


能 用 来 表示 条 件 概率 。 

当 变 量 有 有 限 的 域 时 ， 这 些 因 式 能 被 作为 矩阵 执行 。 如 果 存 在 变量 的 排序 (如 ， 按 字 
母 次序 )， 区 域内 的 值 能 被 映射 为 非 负 实数 ， 存 在 每 个 元 素 的 典型 表示 一 维 数组 ， 此 时 它 
能 够 通过 自然 数 被 检索 。 通 过 使 用 这 样 的 表示 ， 关 于 因 式 的 操作 能 够 有 效 地 被 执行 。 然 
而 ， 对 用 户 来 说 ， 这 并 不 是 最 好 的 表示 方法 ， 因 为 条 件 的 结构 丢失 了 。 

因 式 不 必 作 为 数组 执行 。 当 有 太 多 的 父 节点 时 ， 用 列表 表示 大大 。 通 常 ， 大 多 数 结构 
存在 能 够 被 使 用 的 条 件 概 率 。 

一 个 这 样 的 结构 使 用 上 下 文 特定 的 独立 (context-specific independence)， 在 这 个 环 
境 中 ,已 知 第 三 个 变量 的 特殊 值 ， 此 时 一 个 变量 条 件 独 立 于 另外 一 个 变量 。 例如， 设 
想 机 器 人 能 够 走 到 外 面 或 者 获得 闸 啡 。 它 是 否 会 淋 湿 取决 于 环境 中 是 否 有 十 ,在 这 
里 ， 环 境 指 的 是 它 出 去 或 者 如 果 它 得 到 咖啡 后 杯子 是 否 是 满 的 。 存 在 许多 表示 条 件 概 
$ PCWet | Out，Rain，Full) 的 方法 ， 如 用 决策 树 表示 ， 用 概率 规则 表示 ， 用 带 有 环 
境 的 图 表 表 示 。 
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wete—out\rain: 0.8 
wet~out À ~ rain: 0.1 
wets— ~ out À full: 0.6 
Wet 一 ~ out \ ~ full: 0.3 


~ oul: 





田 一 种 常见 的 表示 是 噪声 。 例 如 ， 设 想 机 融 人 由 于 下 雨 、 徊 啡 、 纺 子 而 淋 湿 。 如 果 天 气 
有 雨 ， 那 么 存在 一 个 由 于 下 十 机 器 人 淋 温 的 概率 。 如 果 机 器 人 有 了 咖啡， 那么 存在 一 个 由 于 史 
啡 机 器 人 淋 湿 的 概率 ， 依 此 类 推 。 如 果 由 于 其 中 一 个 原因 机 器 人 淋 湿 ,那么 就 用 or 连接 。 
250 下 一 章 探讨 了 表示 概率 分 布 的 其 他 方法 。 


【 例 6-18) 图 6-6 显示 了 AA., DA fB, OWRR, 它 是 关于 A、B、C 的 一 个 因 式 。 
注意 ,，(fi Xf)(A=t, B=f, C=f\=f,(A=t, B=/) Xf(B=f, C=fP=0. 9X0.4=0. 36, 


Axf= 





6-6 ” 因 式 相 乘 的 例子 < 


余下 的 操作 是 计算 出 因 式 中 的 一 个 变量 。 针 对 因 式 f(X!，…，X;)， 统 计 出 一 个 变 
量 ， 记 为 Xi ， 关 于 一 个 因 式 中 的 其 他 变量 X。，…，X; 的 定义 如 下 : 


(Df) Rares) = FOR = ms Xa sere Xj) bet (CK 一) 
x; = 


其 中 {ww ，…，wi} 是 关于 变量 X 的 可 能 取 值 的 集合 。 
【 例 6-19] 图 6-7 给 出 了 一 个 从 (A4，B，0) 中 计算 变量 B 的 例子 ,其 中 ACA, B, O 


是 关于 AM CHAR: 
( Er) A= C= fp) = fA=t.B=nC= ft fiA=tB= f.C= f) =0.07+0.36 = 0. 43 
4 
条 件 概 率 分 布 P(X | Y，，…，Y;) 能 够 被 视 为 是 关于 变量 X, Yı, s Y; 的 一 个 画 
数 ， 其 中 


fX =u, Y, =, Y, =y) =P X =u |Y =a, Av AY; =w) 
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通常 ， 人 们 喜欢 用 PC |. ) 表 示 ， 但 是 实质 上 计算 机 仅仅 将 条 件 概率 当做 因 式 。 


i= 





图 6-7 从 一 个 因 式 中 和 算出 一 个 变量 


信念 网 络 推理 问题 (belief network inference problem) 是 在 给 出 一 些 证 据 的 前 提 下 ， 计 
算 变 量 后 验 分 布 的 问题 。 

计算 后 验 分 布 的 问题 能 够 简化 为 计算 联合 概率 的 问题 。 已 知 证 据 Yi =u, ea Y= 
Ujs 查询 变量 Z: 

= ee ¥ ay) = POEM = E =) PY, Se wp 

P(Z|¥, T eS eh ean pe aa 

HJE, Agent 能 够 计算 因 式 PZ, Yi Su, =, Y; =v) HME tb. 注意 到 这 是 一 个 
仅仅 关于 Z 的 因 式 ; 对 于 给 定 一 个 值 Z， 它 返回 一 个 数值 ， 其 表示 证 据 和 2 值 的 联合 概率 
分 布 。 








设想 信念 网 络 的 变量 是 Kan r Xan DT WAARA PZ Y= Y;=v;)> 从 
联合 分 布 中 计算 出 其 他 变量 。 设想 Z1，*…，Z 是 信念 网 络 中 关于 其 他 变量 的 举例 ， 也 
就 是 

(下 一人 一 人 

证 据 和 2 的 联合 概率 是 


人 
Zi 分 


变量 Z 被 计算 出 来 ， 关 于 它 的 排序 是 一 个 消除 排序 (elimination ordering) 。 

要 注意 这 和 可 能 的 语义 分 布 是 怎样 相关 联 的 。 存 在 一 个 可 能 领域 ， 将 每 个 值 分 配给 每 
个 变量 。 联 合 概率 分 布 (joint probability distribution) P(X,, =, X, ) 给 出 了 每 个 可 能 领 
域 的 概率 。 针 对 Y;,，VE 算法 选择 带 有 观察 值 的 领域 生计 算出 拥有 同样 Z 值 的 可 能 领域 。 
这 和 条 件 概率 的 定义 相关 。 然 而 ，VE 算法 做 这 些 要 比 计算 所 有 的 领域 更 有 效 。 

通过 联合 概率 的 规则 和 信念 网 络 的 定义 ， 

P(X: ss Xa) = PCX, | parent (Xi1)) X X PCX, | parent (X,)) 

XE, parent(X LER X 的 父 节 点 的 集合 。 

现在 我 们 将 信念 网 络 推理 问题 简化 为 由 因 式 的 乘积 和 算出 一 个 变量 集合 的 问题 。 为 了 
有 效 地 解决 这 个 问题 ， 我 们 使 用 中 学 学 习 过 的 分 布 规则 : 为 了 计算 如 zy 十 zz 形式 的 乘积 
和 ， 提 取出 常 因子 zx， 所 求 变 为 x(y 十 =) 。 这 就 是 VE 算法 的 本 质 。 因 为 代数 学 中 术语 的 
使 用 ， 我 们 将 这 些 能 够 做 乘积 因子 的 元 素 都 叫做 因 式 。 起 初时 ， 因 式 表 示 条 件 概率 分 布 ， 
但 是 临时 的 因 式 仅仅 是 关于 变量 的 函数 ， 这 些 函 数 通过 加 、 乘 因 式 得 到 。 

为 了 计算 对 于 给 定 观察 值 的 查询 变量 的 后 验 分 布 : 

D 对 于 每 个 条 件 概率 分 布 组 建 一 个 因 式 。 


252 


253 


168 ”第 三 部 分 ”表达 和 推理 


2) 消除 每 个 非 查 询 变量 ; 

。 如 果 变 量 能 被 观察 到 ， 在 变量 出 现 的 每 个 因 式 中 ， 其 值 被 设置 为 观察 值 。 

。 和 否则， 变量 被 计算 出 来 。 

3) 将 其 余 的 因 式 相 乘 ， 并 标准 化 。 

为 了 从 因 式 fis cers fe 的 乘积 和 算出 变量 Z ， 
BZ 的 因 式 fis» +P senha 两 部 分 ， 然后 为 加 和 分 








if 
procedure VE _ BN(Vs, Ps, O, Q) 
Inputs 
Vs:: 变量 集合 
Ps:， 代 有 条 件 和 概率 的 因子 集合 
Q: 某 些 变量 上 观察 值 的 集合 


= 
ov ON OM Sw DS eH 


Qs 查询 变量 
MAAR. A 后 验 分 布 
Q EMS 
MAK =X = AK * RK CD fs ho MH) Local 
Z Z Fs: 因子 集合 
Na REE i ne ee hee 
树 ， 规 则 集合 而 言 ) 的 表示 。 人 


图 6-8 给 出 了 VE 算法 的 伪 码 。 消 除 排序 能 够 
被 先 验 给 出 或 者 能 够 在 空间 中 被 计算 。 首 先 在 消除 
顺序 过 程 中 选择 观察 变量 是 很 有 价值 的 ， 因 为 消除 
这 些 变量 能 够 简化 问题 。 


for each FE Fs (Fs 包含 X)do 
set Ft X 的 观察 值 到 O 〇 
投影 下 到 其 余 变量 

else 
Rss= (FEPs: FRX} 
STAR, 中 因子 的 乘积 


i 
tO o n gaU w & 








在 这 里 假设 查询 变量 没有 被 观察 到 。 如 果 一 个 20 N: er Me 
y 21; Ps; SF \ RsUIN 
特殊 值 能 够 被 观察 到 ， 对 观察 值 来 说 ， 它 的 后 验 概 | Fes SB RU 
率 是 1， 反 之 为 0。 23: N: =DeT 
(i 6-20] 参照 例 6-10 的 查询 PC Tampering oe; | ee ta 
| Smoke = true A Report = true)。 消 除 观察 变量 图 6-8 信念 网 络 的 VE RR 
Smoke 和 Report， 其 余 的 因 式 保留 : 
条 件 概率 因 式 
P( Tampering) fo (Tampering) 
P(Fire) fi (Fire) 
P(Alarm | Tampering, Fire) f: Tampering, Fire, Alarm) 
P(Smoke= yes | Fire) fa (Fire) 
P(Leaving | Alarm) fs(Alarm, Leaving) 
P(Report= yes | Leaving ) f; (Leaving) 


算法 忽略 了 读 到 的 条 件 概率 并 且 仅仅 对 因 式 起 作用 。 人 临时 因 式 并 不 总 是 表示 一 个 条 件 
概率 。 

设想 Fire 在 消除 排序 中 被 选择 。 为 了 消除 Fire, 搜集 包含 Fire 的 因 式 一 fi (Fire)、 
fa (Tampering, Fire, Alarm), f;(Fire), EAH, 并且 从 计算 结果 和 算出 Fire, 

调用 fs (Tampering，Alarm)。 在 这 一 阶段 ， 保留 下 面 的 因 式 : 

fo (Tampering) 3 

fs (Alarm , Leaving ) 

fs (Leaving ) 

fs (Tampering , Alarm) 
设想 下 一 步 要 消除 Alarm. VE 将 包含 Alarm 的 因 式 相 乘 ， 并 且 从 乘积 中 和 算出 Alarm, 
将 它 称 为 fr: 

fr (Tampering , Leaving) = ats (Alarm , Leaving) X f;( Tampering Alarm) 


ZOE 不 确定 推理 169 


然后 有 下 面 的 因 式 : 
fo (Tampering ) 
fs (Leaving ) 
fı (Tampering , Leaving) 


消除 因 式 中 的 Leaving 结果 : 
fa (Tampering) = > fs (Leaving) X f; (Tampering , Leaving) 
Leaving 


为 了 决定 关于 Tampering 的 分 布 ， 将 其 余 的 因 式 相 乘 : 
fo Tampering) = fo(Tampering) X fal Tampering) 
KF Tampering 的 后 验 分 布 用 下 式 表示 : 
fs( Tampering ) 

>) pear” (Tampering) 
注意 到 式 中 分 母 是 证 据 的 先 验 概率 。 E 

【 例 6-21) 考虑 到 和 前 面 例 子 中 相同 的 网 络 环境 ， 对 于 下 面 的 查询 : 

P(Alarm | Fire = true) 

当 Fire 被 消除 时 ， 因 式 PCFire) 变 成 了 一 个 不 含 变量 的 因 式 ， 它 仅仅 是 一 个 值 P(Fire= 
true). 

设想 下 一 步 要 消除 Report。 就 是 在 一 个 因 式 中 ， 因 式 用 PCReport | Learning) RA. 
和 算出 所 有 的 Report 值 ， 这 样 就 得 到 了 关于 Leaving 的 一 个 因 式 ， 它 的 所 有 值 都 为 1。 
这 是 因为 对 于 任意 的 Leaving 的 值 v, P(Report=true|Leaving =v) + P(Report= false| 
Leaving=v)=1., 

类 似 的 ， 如 果 下 一 步 要 消除 Leaving， 可 以 将 变量 值 为 1 的 因 式 和 因 式 PCLeaving | Alarm) 
相 乘 ， 然 后 计算 出 Leaving。 此 操作 再 一 次 产生 了 所 有 元 素 为 1 WAX. 

类 似 的 ， 消 除 Smoke 会 产生 不 含 变量 的 因 式 ， 它 的 值 为 1。 注意 到 即使 Smoke 已 经 被 
观察 到 ， 消 除 Smoke 将 导致 产生 不 含 变量 的 因 式 ， 这 一 点 并 不 会 影响 关于 Alarm 的 后 验 
分 布 。 

最 终 ， 只 存在 表示 其 先 验 概率 的 有 关 Alarm 的 因 式 ， 并 且 在 标准 化 过 程 中 常 因 式 将 
被 消除 。 4 

算法 的 复杂 度 取 决 于 网 络 复杂 性 的 度量 。 用 表格 表示 的 因 式 的 大 小 和 因 式 中 变量 的 数 
目 呈 指数 。 对 于 给 定 的 消除 顺序 ， 网 络 的 树 宽 (treewidth) 是 因 式 中 变量 的 最 大 数目 ， 这 个 
因 式 是 在 特定 的 消除 顺序 下 通过 统计 变量 得 到 的 。 对 所 有 的 消除 顺序 而 言 ， 信 和 念 网 络 的 树 
宽 是 树 宽 的 最 小 值 。 树 宽 取 决 于 图 的 结构 并 且 它 是 图 稠密 度 的 一 个 度量 。VE 算法 的 复杂 
度 在 树 宽 上 时 指数 增长 ， 在 变量 数目 上 时 线性 增长 。 找 到 最 小 树 宽 的 消除 顺序 是 一 个 NP 
难 问题 ， 但 是 正如 对 CSP VE 的 讨论 ， 存 在 一 个 好 的 消除 顺序 启发 式 算法 。 

存在 两 种 主要 的 方法 能 够 提高 算法 的 速度 。 其 一 是 对 于 给 定 的 观测 和 查询 ， 可 删除 不 
相关 变量 。 另 外 ,可 以 将 图 形 编译 成 二 级 结构 ， 该 结构 允许 高 速 缓存 的 图 形 值 。 


6.4.2 通过 随机 模拟 进行 近似 推理 


许多 问题 由 于 太 复 杂 而 不 能 得 到 准确 的 推理 ， 并 且 我 们 必须 诉 诸 于 近似 推理 。 一 个 最 
有 效 的 方法 是 从 相关 的 网 络 的 后 验 分 布 中 得 到 随机 样 例 。 

随机 模拟 (stochastic simulation) 的 基本 思想 是 使 用 样 例 集合 计算 概率 。 例 如 ，P(o) 三 
0.14 意味 着 ，1 000 个 样 例 中 ， 约 140 个 中 的 a 值 为 真 。 你 可 以 从 样 例 中 得 到 概率 ， 也 可 
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以 根据 概率 分 析 样 例 。 

我 们 考虑 3 个 问题 : 

。 怎样 产生 样本 。 

。 怎样 纳入 观察 值 。 

。 怎样 根据 样本 推断 概率 。 

我 们 检验 了 3 种 ， 使 用 样本 计算 变量 后 验 分 布 的 方法 : DEERE; DERRE: 
3) 粒 子 滤波 。 

1. 单个 变量 的 采样 

为 了 从 单个 离散 或 者 实数 变量 X 中 产生 样本 ,首先 将 X 域 中 的 值 排序 。 对 于 离散 变 
量 ， 如 果 没 有 常规 的 排序 要 求 ， 你 就 可 以 建立 一 个 任意 的 序列 。 考 虑 到 排序 ， 票 积 概率 分 
布 (cumulative probability distribution) 是 关于 工 的 函数 ， 定 义 为 fla)=—P(X<z), 

为 了 产生 X 的 随机 样本 ， 从 区 间 L0， 匡 中 随机 选择 一 个 数 ys ATARE, 11h 
每 个 数 有 相同 被 选择 的 机 会 ， 我 们 从 均匀 分 布 中 选择 y。v 表示 XX 的 值 ， 累 积 概率 分 布 中 
它 以 某 种 规则 映射 到 y。 也 就 是 说 ,wv 是 dom (X) 的 元 素 即 juo) 王 y， 或 者 说 v= 六 (y). 
然后 X= 是 X 的 一 个 随机 样本 ， 它 依据 X 的 分 布 被 选择 。 

[Hi 6-22] 随机 变量 X 的 域 为 {m 9 Uso 1 1 
Us, ts}. 设想 P(X=v,)=0.3, P(X=v,)= 
0.45 PCX=H)=0.1, P(X=u,)=0.2. Ñ Eo 
先 ， MEHTA v uL u< ums 6-9 
显示 了 X 的 分 布 P(X) 和 XX 的 累积 概率 分 布 s% 

分 f(X)。 将 了 值 逆 映射 到 的 概率 是 0.3。 

因此 ， 如 果 样 本 是 从 Y 轴 均 匀 选 择 的 , ww 有 1 

0. 3 的 概率 被 选择 ，w 有 0.4 的 概率 被 选择 ， es We ja 
依 此 类 推 。 < 图 6-9 ”累积 概率 分 布 

2. 信念 网 络 中 的 前 向 采样 

前 向 采样 是 信念 网 络 中 产生 每 个 变量 样本 的 一 种 方法 ， 因 此 每 个 样本 依 其 概率 成 比例 
HFE., BEX, o X, 是 变量 的 完整 排序 ， 因 此 在 变量 出 现在 完整 排序 中 之 前 ， 变 量 
的 父 节 点 已 经 出 现 。 前 向 采样 通过 某 种 顺序 得 到 每 个 变量 的 六, ，…，X; 的 样本 ， 进 而 得 
到 所 有 变量 的 样本 。 首 先 ， 使 用 上 述 算法 建立 X 的 样本 。 对 于 其 他 的 每 个 变量 ， 由 于 变 
量 的 整个 排序 ， 当 建立 X 的 样本 之 前 ，X; 的 父 节 点 的 样本 已 经 建立 。 已 知 X 的 父 节点 
已 被 赋值 时 ， 从 X 的 分 布 中 为 ;建立 样本 。 对 每 个 变量 重复 上 述 步 骤 ， 进 而 产生 包含 所 
有 变量 的 样本 值 。 分 配 概率 是 选择 特殊 值 分 配给 所 有 变量 的 概率 。 

【 例 6-23] 图 6-1 建立 了 信念 网 络 的 样本 集合 。 假 设 变 量 排序 如 下 : Tampering, 
Fire, Alarm, Smoke, Leaving, Reports H A E th P B E A ti Ea Tampering 
的 样本 。 假 设 选择 Tampering 二 False。 然 后 通过 相同 的 方法 为 Fire 建立 样本 。 假 设 选择 
Fire 二 true， 然 后 使 用 分 布 PCAlarm|Tampering 二 false，Fire 一 true) 对 Alarm 选择 一 个 
值 。 假 设 选 择 Alarm 二 true。 接 下 来 通过 使 用 P(Smoke | Fire =true) 为 Smoke 选择 一 个 
值 。 然 后 通过 使 用 分 布 P(Leaving |Alarm 二 true) 为 Leaving 选择 一 个 值 。 假设 选择 
Leaving= false。 然 后 通过 使 用 分 布 P(Report | Leaving = false) Report 选择 一 个 值 。 
因此 为 每 个 变量 选择 一 个 值 并 且 创 建 图 6-10 的 第 一 个 样本 。 注 意 到 它 选择 了 不 可 能 值 的 
一 个 组 合 。 这 并 不 经 常 发 生 ， 它 的 发 生 和 样本 程度 成 比例 。 重 复 直 到 有 足够 的 样本 。 
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图 6-10 中 产生 了 1000 个 样本 。 < 


Tampering Fire Smoke Leaving Report 





图 6-10 信和 念 网 络 的 采样 


3. 从 采样 到 概率 

从 样 例 集合 中 使 用 样本 均值 估 测 概率 。 命 古 a 的 样本 均值 (sample average) EUA a 
为 真 的 样本 的 数目 除 以 总 的 样本 数目 。 随 着 在 大 数量 样本 的 分 布 中 样本 数目 接近 无 穷 值 ， 
样本 的 均值 也 就 越 接近 真实 的 概率 。 

已 知 n 个 数目 的 样本 ，Hoeffding 不 等 式 (Hoeffding's inequality) 提 供 了 非 条 件 概率 误 
差 的 一 个 估 测 值 。 

命题 6.6(Hoeffding) 设想 访 是 真 值 ，$ 是 元 个 独立 祥 本 的 样本 均值 ， 那 么 

P(|s—p|>e)<2e™ 

此 引 理 显示 了 拥有 多 少 样本 就 可 以 近似 得 到 概率 的 一 个 准确 的 估 测 值 。 为 了 保证 误 
差 e 二 0. 5， 我 们 需要 更 多 的 样本 。 然 而 ， 在 6 部 分 样本 中 ， 如 果 允 许 大 于 e 的 误差 出 现 ， 
可 以 使 用 2e 六 <8， 其 中 工 满足 下 面 不 等 式 ， 
ees 
Be 
2e? 

例如 ， 想 要 使 误差 小 于 0.1， 也 就 是 说 ， 在 样本 的 5% 中 ， 仅 仅 愿 意 容 忍 误差 比 '0.1 
大 一 点 。 可 以 使 用 Hoeffding 的 约束 ， 设 置 参数 s 王 0.1，8 一 0.05， 其 中 xz 之 184。 因 此 ， 
可 以 保证 在 185 个 样本 中 ， 对 出 现 的 误差 做 上 面 的 约束 。 如 果 想 要 使 至 少 95% 的 样本 中 ， 
误差 小 于 0. 01， 需 要 18 445 个 样本 。 车 想 要 使 99% 的 样本 中 ， 误 差 小 于 0. 1， 需要 265 个 
样本 。 

4. 舍 选 采样 

对 于 证 据 e SHERPA FE AAW PC |e): 

Ponle) = PAA 2 


仅 考 虑 e 为 真 的 那些 样本 进行 计算 ， 进 而 决定 为 真 的 那些 样本 在 上 述 样 本 中 所 占 的 
比率 。 售 选 采 样 (rejection sampling) 的 基本 思想 是 像 之 前 一 样 产 生 样 本 , 但 是 需要 舍弃 包 
含 e 为 假 的 那些 样本 。 在 剩余 的 未 被 抛弃 的 那些 样本 中 ， 为 真 的 样本 所 占 的 比例 是 PCA |e) 
的 一 个 估 测 值 。 在 证 据 是 变量 赋值 的 组 合 条 件 下 ， 样 本 中 被 赋值 的 任何 一 个 变量 值 与 观察 
值 不 同时 ， 此 样本 会 被 抛弃 。 

的 概率 的 误差 取决 于 没有 被 舍弃 的 样本 的 数目 。 没 有 被 舍弃 的 样本 的 数目 与 P(e) 
成 比例 。 因 此 ， 在 Hoeffding RER P, n 是 没有 被 拒绝 的 样本 的 数目 。 因 此 ,误差 取 
决 于 Ple). 


n> 
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当 证 据 是 不 可 能 时 ， 舍 选 采样 不 会 发 生 作用 ， 这 看 起 来 似乎 不 是 问题 ， 因 为 ， 通 过 定 
XL, 不 可 能 的 证 据 不 可 能 会 发 生 。 虽 然 对 于 简单 模型 来 说 是 真 的 ， 但 是 对 于 带 有 复杂 观察 
值 的 复杂 模型 来 说 ， 每 一 个 可 能 的 观察 值 也 许 不 可 能 。 还 有 ， 对 许多 应 用 程序 ， 例 如 诊 
断 ， 因 为 涉及 异常 的 观察 值 时 ， 用 户 对 确定 概率 感 兴趣 。 

【 例 6-24] 6-11 显示 了 怎样 使 用 舍 选 采样 佑 测 PC(Tampering| Smoke A Report). 
任何 包含 Smoke=true 的 样本 都 会 被 舍弃 。 在 没有 考虑 任何 其 他 变量 的 情况 下 ， 样 本 被 舍 
FH. BHAA Report= false 的 样本 。 我 们 使 用 剩余 样本 的 样本 均值 (标记 了 ~ 的 项 ) 估 测 
关于 Tampering 的 后 验 概率 分 布 。 

因为 P( Smoke 人 Report)= 二 0.021 3， 我 们 预期 1 000 个 样本 中 ， 有 21 个 样本 会 被 舍 
弃 。 因 此 ，21 可 以 看 做 是 Hoeffding PEA PH n, 也 就 是 说 ， 例 如 ， 对 于 任意 的 概率 ， 
保证 63 冯 的 案例 中 这 些 样 本 的 误差 小 于 0. 2。 

Tampering i Leaving 
false x 
false 1 false 


false t x 
false false 





false false 
false 3 false 
true x 


true false 





true 


图 6-11 对 于 P( Tampering | Smoke A Report) Rw RFE < 


5. 重要 性 采样 

除了 创建 一 个 样本 然后 舍弃 它 ， 可 以 将 采样 和 推理 混合 ， 进 而 推断 一 个 样本 被 舍弃 的 
概率 ， 此 方法 是 可 行 的 。 在 重要 性 采样 中 ， 每 个 样本 有 一 个 权重 ， 我 们 通过 使 用 加 权 的 样 
本 均值 来 计算 样本 均值 。 样 本 的 权 值 有 两 个 来 源 。 

。 样本 并 不 是 以 其 概率 成 比例 地 被 选择 ,而 是 根据 其 他 的 分 布 一 一 建议 分 布 (pro- 

posal distribution) 被 选择 。 

。 使 用 证 据 更 新 权 值 和 计算 样本 被 舍弃 的 概率 。 

【 例 6-25) 变量 A 没有 父 节 点 ， 变 量 巨 只 有 一 个 父 节 点 A， 但 是 A 有 其 他 的 孩子 节 
Ai. (iz PCe|a)=0.03, Ple| -a)=0.63 且 e 是 可 以 被 观察 的 。 考 虑 包含 A= true 的 那 
些 样本 。 在 1 000 个 这 样 的 样本 中 ， 只 有 3 个 未 被 舍弃 。 除 了 舍弃 99.7% 的 包含 A=irue 
的 样本 ， 每 个 包含 A=true 的 样本 可 以 加 权 0. 003。 因 些 ， 仅 有 一 个 样本 能 够 传递 关于 合 
弃 的 相关 信息 。 

假设 P(Ca) 三 0.98。 如 果 算 法 根据 概率 采样 ,在 1 000 个 样本 中 ， 有 20 个 样本 中 包含 
A= false。 除 了 根据 概率 采样 外 ， 假设 从 A=true 的 样本 中 采样 需要 50% 的 时 间 ， 但 是 ， 
每 个 样本 加 权 如 下 。 包 含 A=true 的 样本 加 权 0. 98/0.5=1.96, 并且 A= false 的 样本 加 
AL 0. 02/0. 5=0. 04， 很 容易 可 以 计算 出 加 权 的 样本 均值 和 概率 是 相同 的 。 i 

在 舍 选 采样 中 ， 对 于 先前 的 概率 和 观察 值 ez， 在 ISHN FEAR A= true, JF HA WIE 
Hie, 99.7% WREEK RR. A= false 将 会 被 选择 在 2% 的 样本 中 ， 并且 37% 的 
这 些 样 本 将 会 被 舍弃 。 因 此 ， 舍 选 采 样 接受 仅仅 0. 98 X 0. 003 十 0.02X0.63 王 0.0155 4 的 
样本 ， 舍 弃 超 过 98% 的 样本 。 
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如 果 将 这 个 思想 融 人 例子 的 前 两 段 ， 一 半 的 样本 中 将 包含 A=true, 并 和 且 这 些 样 本 可 
-以 加 权 1. 96 X0. 003=0. 005 88, 并 且 另 外 一 半 的 样本 中 将 包含 A= false， 它 们 可 以 加 权 
0. 04X 0. 63=0. 025 2。 这 样 的 两 个 样本 可 以 传递 许多 舍弃 样本 的 信息 。 | 

重要 性 采样 和 舍 选 采样 在 两 个 方面 有 不 同 之 处 : 

。 重要 性 采样 并 不 对 所 有 的 变量 进行 采样 ， 只 是 针对 其 中 的 一 部 分 变量 。 没 有 被 采 

样 的 变量 和 没有 被 观察 到 的 变量 被 统计 出 来 (例如 ， 执 行 一 些 精 确 的 推论 )。 

特别 是 不 想 对 可 观察 变量 进行 采样 (然而 在 算法 中 ， 没 有 阻止 该 采样 )。 如 果 所 有 的 非 
观察 变量 都 被 采样 ， 那 么 很 容易 可 以 计算 出 已 知 证 据 的 样本 的 概率 (见习 题 6. 10) 。 

。 重要 性 采样 不 需要 根据 它们 的 先 验 概率 对 所 有 的 变量 进行 采样 ; 它 可 能 使 用 任意 

的 分 布 进行 采样 。 对 变量 采样 使 用 的 分 布 叫做 提议 分 布 (proposal distribution)。 
任意 一 个 分 布 都 可 以 作为 提议 分 布 ， 只 要 该 提议 分 布 选 择 一 些 样 本 的 概率 不 为 0， 
这 在 模型 中 是 可 能 的 (否则 该 部 分 的 空间 将 不 会 被 利用 )。 选 择 一 个 好 的 提议 分 布 


是 很 重要 的 。 
一 般 的 ， 为 了 从 因 式 f(S)g(S) 中 统计 变量 S， 可 以 从 分 布 q(s) 选 择 样 本 集合 {5 ，…，swj。 
DHS) = lim (HY F.) (6.1) 


此 等 式 计 算 了 AS) 的 期 望 值 ， 在 这 里 期 望 大 于 了 分 布 gCS) 值 。 
在 前 向 采样 中 ，g(s) 是 均匀 采样 ,但 是 式 (6. 1) 对 任意 分 布 都 成 立 。 


在 重要 采样 中 ，S 是 将 会 被 采样 的 变量 集合 。 正 如 在 VE 算法 中 ， 我 们 引入 一 些 变量 


并 且 将 它们 统计 出 来 ; 在 这 种 情况 下 ， 我 们 对 采样 的 变量 求 和 : 
Plh|e) = >)PCA|S,e)P(S|e) 


顶部 和 底部 同 乘 以 提议 分 布 9CS)， 有 
APGS,aP(CS|e)gCS) 
Pthle) = > pr 4 


注意 这 并 未 给 出 一 个 除数 为 0 的 错误 ; WMR G(s) =0, s 将 永远 不 会 被 选 作 一 个 样本 。 
使 用 式 (6. 1) ， 假 设 {a ，…，sw)} 是 所 有 样本 的 集合 : 
Pehle) = im S) Pih |si) Ps e) 
No 人 q(s;) 
使 用 关于 Psile) 的 贝 叶 斯 规则 ，P(e) 是 一 个 常数 ， 有 
1 rÈ Plh |si) Ple|s DPC) 
q(s,) 

AF, k 是 一 个 标准 化 的 常数 ， 它 保证 了 对 于 一 E E oo 值 的 后 验 概 
率 值 渐 近 到 1。 

因此 ， 对 于 每 个 样本 ， 权 值 P(s,)/g(s;) 就 如 同一 个 先 验 值 乘 以 证 据 的 概率 来 获得 给 定 
样本 的 权 值 。 已 知 多 个 样本 ， 前 面 的 公式 显示 了 怎样 通过 获得 每 个 样本 的 加 权 均 值 来 预测 
关于 任意 有 的 后 验 分 布 。 

需要 注意 重要 性 采样 如 何 概括 舍 选 采样 。 舍 选 采样 是 g(s) 二 Ps;) 的 情况 ,并 且 S 包 
括 所 有 的 变量 ,也 包含 观察 变量 。 

图 6-12 显示 了 对 于 已 知 查询 变量 Q 和 证 据 e, 为 了 计算 PC(Q|e) 所 采用 的 重要 性 采样 
算法 的 详细 过 程 。 第 一 个 for 循环 (18 行 ) 显 示 了 创建 了 关于 S 的 样本 5。 变量 p(21 行 ) 表 
示 样 本 s 的 权 值 。 算 法 更 新 了 查询 变量 的 每 个 值 的 权 值 ， 并 且 将 样本 s 的 概率 增添 到 变量 


P(h|e) = tim = 
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mass, 变量 mass 代表 概率 和 (probability mass) 查询 变量 的 所 有 值 的 概率 的 总 和 。 最 
终 ， 通 过 查询 变量 的 每 个 值 的 权 值 除 以 概率 和 来 返回 概率 。 





l: procedure IS_ BN(Vs, P, e, Q, S, q, n) 
2: Inputs 
3: Vs: 变量 集合 
4; P: 计算 条 件 概 率 的 过 程 
5: e: 证 据 ， 为 某 些 变量 赋值 
: Q: 查询 变量 
S=(Si， 人 Si}; 抽样 变量 集合 
q: S 上 的 分 布 ( 提 议 分 布 ) 
n: 产生 抽样 的 数目 
Output 
Q 上 的 后 验 分 布 
Local 
数组 olk], XE vw[ 让 dom(Si) 
实数 数组 anslm], m 是 dom(QQ) 的 规模 
s: S 的 每 个 元 素 的 赋值 
mass; =0 
repeat n times 
for i=1: k do 
select uiE dom(S;) 使 用 分 布 9(S:=w |So=vo» s Se= vm) 
S: 一 赋值 $= "se Sey 
p: =Ple|s)X P(s)/q(s) 
for each v; € dom(Q)do 
ansli]: =ans[i]+P(Q=v,|S\e)Xp 
mass; =mass+ p 
return ans[ |/mass 





图 6-12 信念 网 络 推理 的 重要 性 采样 


[B] 6-26) 假设 我 们 想 要 采用 重要 性 采样 来 计算 PCalarm|smoke \ report). Mw 
择 进 行 采样 的 变量 和 提议 分 布 。 假 设 对 Tampering, Fire 和 Leaving 进行 采样 ， 并且 使 
用 下 面 的 提议 分 布 : 

qltampering) = 0. 02 

ql fire) = 0.5 

q(Alarm | Tampering , Alarm ) = P(Alarm | Tampering, Alarm) 

q( Leaving | Alarm) = P( Leaving | Alarm) 
因此 ， 除 了 Fire 外 ， 提 议 分 布 和 初始 分 布 是 一 样 的 。 

下 面 的 表 给 出 了 几 个 样本 。 在 这 个 表 中 ，s 是 样本 ; e 是 smoke Mreport; P(e|s)= 

263) Plsmoke|fire)XP(report|Leaving)， 其 中 Fire 和 Leaving 的 值 来 源 于 样本 ; 当 样 本 中 

Fire=true Mf}, P(s)/q(s)=0.02, H Fire= false 时 ，P(s)/q(s)==1.98; p=P(lels)X 











P(s)/q(s) 是 样本 的 权重 。 
Tampering Fire P(s)/q(s) p 
false true false true 0. 675 0. 02 0.013 5 
true true true false 0. 009 0. 02 0. 000 18 
false false false true 0. 007 5 1.98 0. 014 85 
false true false false 0. 009 0. 02 0. 000 18 


P(alarm|smoke A report) 241 Alarm=true 的 样本 的 加 权 比 例 。 | 
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就 精确 性 怎样 依赖 于 运行 时 间 而 言 ， 算 法 的 效率 主要 取决 于 : 

。 提议 分 布 。 为 了 获得 最 好 的 结果 ， 提 议 分 布 应 该 尽 可 能 地 接近 后 验 分 布 。 然 而 ， 
Agent 一 般 不 能 直接 根据 后 验 分 布 进行 采样 ， 如果 可 以 ， 那 么 就 可 以 更 简单 地 产生 
后 验 概率 。 

。 对 哪些 变量 进行 采样 。 采 样 较 少 的 变量 意味 着 每 个 样本 中 包含 更 多 的 信息 ， 但 是 
每 个 样本 要 求 更 多 的 时 间 计算 样本 的 概率 。 

决定 提议 分 布 和 对 哪些 变量 进行 采样 是 一 种 艺术 。 

6. 粒子 滤波 

重要 性 采样 一 次 列举 一 个 样本 ， 针 对 每 个 样本 ， 对 每 个 变量 进行 赋值 。 也 可 以 始 于 所 
有 样本 ， 即 对 每 个 变量 所 包含 每 个 样本 生成 一 个 值 。 例 如 ， 对 于 图 6-10， 能 够 产生 相同 的 
数据 ， 即 通过 在 产生 Fire 值 之 前 产生 关于 Tampering MIH. WFA (particle filtering) 
算法 在 移动 到 下 一 个 变量 之 前 就 产生 关于 一 个 变量 的 所 有 样本 。 它 对 变量 进行 一 次 扫描 ， 
并 且 对 于 每 个 变量 扫描 一 次 所 有 的 样本 。 当 动态 地 产生 变量 时 ， 算 法 有 一 个 优势 ， 并 且 许 
多 变量 是 不 受 约束 的 。 它 也 允许 考虑 重新 采样 的 新 操作 。 

已 知 关于 某 些 变量 的 样本 集合 ， 重 新 采样 (resampling) 需 要 ?个 样本 ， 每 个 样本 有 自 
己 的 权 值 ， 并 且 产 生 个 样本 的 新 集合 ， 每 个 样本 有 相同 的 权 值 。 对 于 一 个 生成 的 随机 变 
量 ， 重 新 采样 采用 与 随机 采样 相同 的 方法 执行 ， 但 是 选择 的 是 样本 而 不 是 值 。 一 些 样本 被 
多 次 选择 ， 而 一 些 样本 则 未 被 选择 。 

粒子 (particle) 由 变量 值 的 集合 和 相关 联 的 权 值 组 成 。 对 于 给 定 的 证 据 ， 命 题 的 概率 与 
命题 为 真 的 粒子 权 值 的 加 权 部 分 成 比例 。 粒子 的 集合 是 一 个 种 群 (population) 。 

粒子 滤波 是 一 种 采样 方法 ， 它 起 始 于 一 个 粒子 种 群 ， 每 个 粒子 中 不 对 任何 变量 赋值 ， 
其 权 值 为 1， 在 每 一 步 它 能 够 : 

。 选择 一 个 没有 被 采样 或 者 被 总 结 的 变量 且 这 个 变量 没有 被 观察 过 。 对 于 每 个 粒子 ， 

它 根据 某 一 提议 分 布 对 变量 进行 采样 。 粒 子 权 值 的 更 新 和 重要 性 采样 中 的 一 样 。 

。 选择 一 个 证 据 来 吸收 。 在 这 之 前 证 据 应 该 没有 被 吸收 过 。 对 于 给 定 值 的 粒子 ， 粒 
子 的 权 值 和 证 据 的 概率 相 乘 (总 结 出 相关 的 和 没有 被 采样 的 任意 变量 ) 。 

。 对 种 群 进行 重新 采样 。 重 新 采样 通过 从 种 群 中 选择 粒子 组 建 一 个 新 的 粒子 群 ， 每 
个 粒子 群 有 相同 的 权 值 ， 每 个 粒子 以 与 其 权 值 成 比例 的 概率 被 选择 。 一 些 粒 子 被 
和 遗忘， 一些 粒子 被 重复 。 

在 没有 重新 采样 时 ， 重 要 性 采样 和 粒子 滤波 是 等 价 的 ， 但 是 主要 的 不 同 是 粒子 的 产生 
顺序 。 在 粒子 滤波 中 ， 针 对 每 个 变量 ， 对 所 有 的 样本 进行 采样 ， 然 而 ， 重 要 性 采样 是 在 下 
一 个 粒子 被 考虑 之 前 ， 每 个 粒子 (样本 ) 对 所 有 的 变量 进行 采样 。 

相对 于 重要 性 采样 ， 粒 子 滤 波 有 两 个 主要 的 优势 。 首 先 ， 它 能 使 用 无 穷 数目 的 变量 
后面 我 们 将 会 看 到 ) 。 第 二 ， 粒 子 能 够 很 好 地 覆盖 假设 空间 。 然 后 ， 重 要 性 采样 将 会 涉及 
一 些 低 概率 的 粒子 ， 仅 有 一 些 粒 子 能 够 覆盖 大 部 分 的 概率 团 ， 重 新 采样 使 得 一 些 粒子 能 够 
更 均匀 地 覆盖 概率 团 。 | 

【 例 6-27] 对 于 图 6-1 中 的 信念 网 络 ， 使 用 粒子 滤波 计算 PCReport|smoke). BFE; 
产生 粒子 ss o Soos Ø, 我们 使 用 给 定 粒 子 的 正在 被 采样 的 变量 的 条 件 分 布 作为 提 
议 分 布 。 设 想 对 Fire 进行 采样 。 在 1000 个 粒子 中 ， 410 个 粒子 包含 Fire 二 true 且 约 990 
个 粒子 包含 Fire= false Ci P(fire)=0.01). € fe ft RIE Smoke=ture, MHA 
Fire=true 的 粒子 可 以 加 权 0. 9( 如 P(smoke | fire) =0. 9) IF AWA Fire= false 的 粒子 可 
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以 加 权 0. 01( 如 PCsmoke| ”Fire) 一 0.01)。 然 后 重新 进行 采样 ， 每 个 粒子 与 其 权 值 成 比例 
地 被 选择 。 包 含 Fire=true 的 粒子 将 以 990X0.01: 10X0.9 的 比率 被 选择 。 因 此 ， 约 524 
个 包含 Fire=true 的 粒子 将 会 被 选择 ， 其 余 的 粒子 包含 Fire 二 false, WR. 其 他 的 变量 
被 采样 直到 Report 被 采样 。 < 
注意 ， 在 粒子 滤波 中 粒子 并 不 是 独立 的 ， 因 此 并 不 能 直接 应 用 Hoeffding RER. 


6.5 概率 和 时间 


我 们 对 动态 系统 进行 建 模 ， 并 将 其 作为 一 个 信念 网 络 ， 这 是 通过 在 一 个 特定 的 时 刻 将 
它 的 特征 作为 一 个 随机 变量 实现 的 。 首 先 就 状态 而 言 ， 我 们 给 出 了 一 个 模型 ， 然 后 显示 了 
它 怎 样 过 渡 到 特征 。 


6.5.1 马尔 可 夫 链 


马尔 可 夫 链 (Markov chain) 是 一 个 用 于 表示 值 序列 的 信念 网 络 的 特定 序列 ， 如 动态 系 
统 中 的 状态 序列 或 者 甸子 中 的 词 序列 。 

6-13 显示 了 作为 信念 网 络 的 一 个 一 般 的 马尔 可 夫 链 。 网 络 不 必 停留 在 状态 S;， 但 
是 它 可 以 无 限 延 伸 。 信 念 网 络 传递 了 独立 性 假设 

PiS | Bis) = PS | Sy 
这 称 为 马尔 可 夫 假 设 (Markov assumption), 


图 6-13 马尔 可 夫 链 作为 信和 念 网 络 

通常 ，S, 表示 t 时 刻 的 状态 。 直 观 的 ，S, 传递 了 能 够 影响 未 来 状态 的 所 有 历史 信息 。 
E S, 时 刻 ， 你 可 以 看 到 “对 于 现在 而 言 ， 未 来 条 件 独立 于 过 去 ”。 

如 果 每 个 时 间 点 的 过 渡 概 率 是 相同 的 ( 即 ， 对 任意 的 ec, >00, PCS. | S.) 三 
P(CS. lsS 7， 我 们 就 说 马尔 可 夫 链 是 静态 的 (stationary)。 为 了 详细 说 明 静 态 马 尔 可 夫 
链 ， 必 须 先 说 明 两 个 条 件 概 率 : 

。 P(S,) 指 出 初始 条 件 。 

© PCS. |S,) 说 明了 动态 性 ， 对 于 每 个 :二 0， 其 值 是 相同 的 。 

静态 马尔 可 夫 链 是 有 意义 的 ， 因 为 : 

。 它们 提供 了 很 容易 理解 的 一 个 简单 模型 。 

。 着 态 假 设 通常 是 自然 的 模型 ， 因 为 特殊 领域 的 动态 性 并 没有 随 着 时 间 而 改变 。 若 

动态 性 随 着 时 间 改 变 ， 这 是 因为 能 被 模型 化 的 其 他 特征 存在 。 

。 网 络 能 够 无 限 延 伸 。 较 少 的 参数 能 够 给 出 一 个 无 限 的 网 络 。 我 们 可 以 对 未 来 或 过 

去 的 任意 点 进行 查询 或 观察 。 

为 了 决定 状态 S 的 概率 分 布 ，VE 能 够 统计 以 前 的 变量 。 注意，S; 后 面 的 变量 和 S， 
的 概率 不 相关 且 S; 后 面 的 变量 不 需要 考虑 。 这 个 计算 作为 一 个 矩阵 乘法 被 说 明 ,， 但 是 注 
意 到 符 阵 乘法 是 VE 的 一 个 简单 形式 。 类 似 的 ， 为 了 计算 PCS, |S). HP k>i MSZ 
前 的 变量 需要 考虑 。 


6.5.2 隐 马 尔 可 夫 模 型 
隐 马 尔 可 夫 模 型 (hidden Markov model，HMM) 是 包含 观察 值 的 马尔 可 夫 链 的 一 个 扩 
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展 版 本 。 正 如 马尔 可 夫 链 的 过 渡 状 态 一 样 ，HMM 也 包含 状态 的 观察 值 。 不 同 状态 的 观察 
值 部 分 能 够 映射 到 相同 的 观察 值 ， 并 且 在 不 同 的 时 刻 相 同 状态 的 品 声 能 够 随机 映射 到 不 同 
的 状态 。 

与 在 马尔 可 夫 链 中 一 样 ，HMM 下 的 假设 就 是 在 zi 十 1 时 刻 的 状态 仅仅 与 1 时 刻 的 状态 
相关 。z 时 刻 的 观察 值 仅仅 与 + 时 刻 的 状态 有 关 。 我 们 可 以 使 用 上 时 刻 的 变量 0, 对 观察 值 
进行 建 模 ， 观 察 值 的 域 是 所 有 可 能 观察 值 的 集合 。 图 6-14 显示 了 HMM 的 信念 网 络 表 示 。 
虽然 显示 了 4 个 阶段 的 信念 网 络 ， 但 是 它 仍然 能 够 无 限 扩展 。 

静态 的 隐形 马尔 可 夫 模 型 包含 下 面 的 概率 分 布 : 

。 P(S,) 指 出 了 初始 条 件 。 

。 P(Swi|S,) 说 明了 动态 性 。 

。 P(O,1S,) 详 细 说 明了 概率 模型 。 

HMM 中 存在 几 个 常见 的 问题 。 

信念 网 络 过 滤 (filtering) 或 者 监听 (monitoring) 问 题 就 是 决定 当前 的 状态 ， 这 个 状态 依 
据 当 前 或 者 先前 的 观察 值 。 也 就 是 决定 

PCS, (Osse s0) 

ER. RES, 后 的 所 有 状态 和 观察 值 是 不 相关 的 ， 这 是 因为 当 计 算 条 件 分 布 时 ， 它们 并 
没有 被 观察 到 或 者 被 忽略 。 

平滑 (smoothing) 问 题 是 确定 依据 未 来 或 者 过 去 的 观察 什 的 状态 ， 假设 Agent 已 经 观 
察 到 z 时 刻 且 此 时 它 想 要 知道 i 时 刻 的 状态 ， 其 中 ik, 平滑 问题 就 是 决定 


PCS; | Oo OU) 
Hp >k 时， 所 有 的 变量 S; AV, 能 够 被 忽略 。 
定位 


设想 一 个 机 器 人 和 想 要 根据 它 的 历史 行为 和 检测 信号 值 决定 它 的 位 置 。 此 问题 称 做 定位 
(localization) [a]. Al 6-15 显示 了 定位 问题 的 信念 网 络 表示 。 在 时 刻 i. 存在 变量 Loc, 
Obs;、Act;， 它 们 分 别 表示 i 时 刻 机 器 人 的 位 置 、 观 察 值 和 行为 。 在 这 一 部 分 ,假设 机 唤 
人 的 行为 能 够 被 观察 到 (第 9 章节 介绍 这 种 情况 )。 





图 6-14 隐 马 尔 可 夫 模 型 作为 信念 网 络 图 6-15 用 于 定位 的 信念 网 络 


此 模型 有 如 下 的 动态 性 假设 : 在 i 时 刻 , 机 器 人 位 置 在 Loc, CWR Obs, RAR 
取 行动 ， 观察 到 行为 Act; 在 i 二 1 时 刻 ， 它 在 位 置 Locitis E t HAI, 它 的 观察 值 仅仅 依 
赖 于 t 时刻 的 状态 。t 十 1 时 刻 机 器 人 的 位 置 依 赖 于 zt 时 刻 的 位 置 和 行为 。 给 出 1 时 刻 的 位 
置 和 行为 ，t 十 1 时 刻 它 的 位 置 条 件 独立 于 以 前 的 位 置 、 以 前 的 观察 值 、 以 前 的 行为 。 

定位 问题 即将 机 器 人 的 位 置 作 为 观察 历史 的 函数 ， 

PlLoc, | Obs. vActo sObs; Acti s**t s Acte »Obs,) 

【 例 6-28] 考虑 到 图 6-16 中 显示 的 域 。 存 在 一 个 循环 通道 ，16 个 位 置 从 编号 0 到 编 
号 15。 每 一 时 刻 ， 机 器 人 在 其 中 的 一 企 位 置 上 。 将 其 模型 化 ， 即 对 于 一 个 时 刻 i 存在 一 
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个 变量 Loci, 域 为 {0， 13 mg 15}. 


ma 5 3. 6 12 ehe I to ee 
图 6-16 定位 域 


位 置 2、4、7 和 11 存在 门 。 
机 器 人 有 一 个 传感器 ， 可 以 识别 到 它 是 否 在 一 扇 门 前 。 模 型 化 即 对 每 个 时 刻 i。 对 
应 一 个 变量 Obs;, BRA door, nodoor}. RRA FMW AEE : 

P(Qbs = door |atDoor) = 0.8 

P(Qbs = door | notAtDoor) = 0.1 
其 中 ， 在 状态 2、4、7、11 时 atDoor 为 真 ， 在 其 他 的 状态 notAtdoor HH. 

因此 ， 观 察 值 是 部 分 相关 的 ， 在 许多 状态 中 会 出 现 相同 的 观察 值 并 且 在 下 面 
的 方式 中 它 是 有 噪声 的 : 在 20%% 的 情况 下 ， 机 器 人 在 一 扇 门 前 ， 但 是 传感器 却 虚 
假 地 给 出 一 个 消极 的 信号 。 在 10% 的 情况 下 ,机 器 人 并 不 在 一 扇 门 前 ,但 是 传 感 
器 却 记录 此 时 存在 一 扇 门 。 
在 每 个 时 刻 ， 机 器 人 能 够 向 左 黎 、 向 右 移 、 静 止 不 动 。 假设 静止 不 动 具有 决定 性 ， 
但 是 移动 的 动态 性 是 随机 的 。 它 能 够 实施 goRight 行为 并 不 意味 着 它 走 一 步 就 到 
右边 一 一 它 可 能 静止 不 动 ， 走 两 步 到 右边 或 者 以 任意 的 位 置 作为 终点 。 对 每 个 位 
BL, 假设 有 以 下 动态 性 ; 

P(Locy = L| Act, = goRight \ Loc, = L) = 0.1 

P(Loce, = L+1| Act, = goRight A Loc, = L) = 0.8 

P( Loc. = L+2| Act, = goRight 人 Loc, = L) = 0.074 

对 任意 的 其 他 位 置 工 ,P(Eocsa = L | Act, = goRight A Loc, = L) = 0.002 
所 有 的 定位 算法 以 16 为 模 。goLe 产 行为 以 同样 的 方式 运行 。 


机 器 人 起 初 在 一 个 未 知 的 位 置 ， 并 且 必 须 确定 它 的 位 置 。 
域 看 起 来 似乎 有 层 义 性 ,传感器 有 了 噪声， 动态 性 太 随 机 而 不 能 做 任何 事情 。 然 而 ， 对 


于 给 定 的 行为 和 观察 值 的 历史 记录 ， 计 算 机 器 人 当前 位 置 的 概率 是 可 能 的 。 


图 6-17 给 出 了 机 器 人 位 置 的 概率 分 布 ， 假 设 初 始 时 不 知道 机 器 人 位 置 的 任何 信息 ， 


并 且 机 器 人 经 历 下 面 的 观察 值 : 观察 到 门 ， 向 右 走 ， 没 有 观察 到 门 ， 向 右 走 ， 然 后 ， 再 观 
察 门 。 位 置 4 是 最 可 能 的 当前 位 置 ， 拥有 0. 42 的 后 验 概 率 分 布 。 也 就 是 说 ， 就 图 6-15 的 
网 络 而 言 : 


PlLocs = 4| Obsy = door ,Acty = goRight ¿Obs = nodoor , 


Act, = goRight ,Ohs: = door) = 0. 42 





11 0.01 .011 0.4 0. i i 0.018 0.011 


6-17 位 置 的 分 布 。 位 置 从 数字 0 到 15 编号 。 底 端的 数字 指出 了 当 例 6-28 给 出 特殊 的 行为 序 


列 和 观察 值 序列 后 ， 机 器 人 位 置 的 后 验 概率 分 布 。 柱 状 条 的 高 度 和 后 验 概 率 成 比例 


位 置 7 是 第 二 个 可 能 的 当前 位 置 ， 具 有 0. 141 的 后 验 概率 。 位 置 0、1、3、8、12 和 
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15 则 是 最 不 可 能 为 当前 位 置 的 ， 它 们 具有 0. 011 的 后 验 概 率 。 a 
通过 使 用 书 中 介绍 的 网 站 的 小 程序 可 以 看 看 其 他 的 观察 序列 如 何 发 挥 作 用 。 

【 例 6-29) 利用 另 一 个 传感器 讨论 例 6-28， 假 设 ， 除 门 传 感 器 外 ， 还 有 光 传 感 器 。 光 
传感器 和 门 传感器 独立 于 给 定 的 状态 。 假 设 光 传 感 器 信息 性 并 不 是 很 强 ， 无 论 它 是 否 能 够 
侦 测 到 任意 的 光 ， 它 仅仅 能 给 出 是 或 否 
的 信息 ， 并 且 这 是 有 噪声 的 ， 且 以 位 置 
为 基础 。 

图 6-18 使 用 了 下 面 的 变量 进行 建 模 : 

。 Loc, 是 机 器 人 在 上 时刻 的 位 置 。 

Act, 是 机 器 人 在 上 时 刻 的 行为 。 

*， D, 是 上 时刻 的 门 传感器 值 。 

。 工 , Æt 时 刻 的 光 传 感 器 值 。 6-18 多 传感器 的 定位 

fe L: M D: 的 基础 上 ， 结 合 光 传感器 和 门 传 感 器 的 信息 ， 这 是 一 个 传感器 融合 (sensor 
fusion) 的 实例 。 对 于 给 定 的 信念 网 络 模型 ， 对 传感器 融合 来 说 ， 定 义 新 的 机 制 不 是 必要 
的 。 标 准 概率 推理 结合 了 两 个 传感器 的 信息 。 可 


6.5.3 监听 和 平滑 算法 


为 了 实施 监听 和 平滑 ， 可 以 使 用 任意 一 个 标准 信念 网 络 算法 ,例如 VE 或 者 粒子 过 
滤 。 利 用 时 间 向 前 移动 的 事实 可 以 及 时 获得 观察 值 和 有 意义 的 当前 状态 。 
在 信念 监听 (balief monitoring) 或 者 过 滤 (filtering) 中 ， 给 出 历史 观察 值 的 前 提 下 ， 机 
器 人 可 以 计算 当前 状态 的 概率 。 就 图 6-14 中 的 HMM 而 言 ， 对 每 一 个 i，Agent 想 要 计算 
P(S;1o。，…，0o;)， 其 表示 就 特殊 的 观察 值 oo ，…o; 而 言 i 时 刻 的 状态 值 ， 通过 使 用 VE 
算法 可 以 很 容易 计算 出 来 : 
PCS; [oos s0) cEP(S; rosso) 
= P(o; | S,) PCS, 00 tso) 
=P(o, |S.) >) PCS) Sero 10-1) 
S (6. 2) 
=P(o; iso Fs: | Sit) PCSixr 500 9*** 50-4) 


cc P(o, |S; Des | Si) PCS: | 00 +*** 50-1) 


假设 Agent 已 经 根据 得 到 的 ;一 1 时 刻 以 前 的 观察 值 计算 出 概率 ， 也 就 是 说 ， 它 有 一 
个 表示 PCS; |o ，…，oi-1) 的 因 式 。 注 意 到 ， 这 仅仅 是 关于 S-: 的 因 式 。 为 了 计算 下 一 
个 概率 ， 它 将 这 个 因 式 乘 以 PCS |Si_1)， 然 后 计算 出 S-:， 再 乘 以 因 式 Po, |S;)， 并 且 
标准 化 。 

将 关于 S; i 的 因 式 乘 以 因 式 PCS |S;_1)， 然 后 计算 出 S-: 是 一 个 矩阵 乘法 (matrix 
multiplication) 。 将 结果 乘 以 Plo, |S;)， 这 被 称 为 点 积 (dot product) 。 矩 阵 乘法 和 点 积 是 
VE 的 简单 实例 。 

【 例 6-30】 考虑 到 例 6-28 中 的 域 。 门 的 观察 值 涉及 将 每 个 位 置 L MER PCdoor| 
Loc 二 L)， 并 且 重 新 标准 化 。 对 于 每 个 状态 的 一 个 向 右 移动 ， 是 在 使 用 该 状态 下 的 概率 为 
状态 加 权 的 过 程 中 ， 对 有 移动 作 进行 的 向 前 模拟 。 可 

对 许多 问题 来 说 ， 状 态 空 间 太 大 而 不 能 进行 准确 的 推理 。 对 那些 领域 来 说 ， 粒 子 过 滤 
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通常 是 有 效 的 。 对 临时 模型 来 说 ， 重 新 采样 通常 发 人生 在 每 一 个 时 间 步 。 一 旦 观察 到 证 据 ， 
且 已 经 计算 出 样 例 的 后 验 概率 ， 那么 他 们 就 能 够 被 重新 采样 。 
平滑 (smoothing) 是 指 在 HMM 中 ， 在 给 定 过 去 和 未 来 观察 值 的 条 件 下 ， 计 算 状 态 变 
量 的 概率 分 布 。 未 来 观察 值 的 使 用 有 助 于 得 到 更 准确 的 分 布 。 给 定 一 个 新 的 观察 值 ， 通 过 
使 用 VE 算法 扫描 一 次 所 有 状态 ， 进 而 更 新 所 有 先前 的 状态 评估 ， 些 方法 是 可 能 实现 的 ， 
271) WY 6.11. 


6.5.4 动态 信念 网 络 


不 必 把 特殊 时 刻 的 状态 当做 一 个 单独 的 变量 。 用 特征 表示 状态 是 很 自然 的 。 
动态 信念 网 络 (dynamic belief network，DBN) 是 一 个 带 有 常规 重复 结构 的 信念 网 络 。 
它 就 像 一 个 (隐形 的 ) 马 尔 可 夫 模 型 ， 但 是 状态 和 观察 值 用 特征 表示 。 假 设 ， 时 间 是 离散 
的 。 如 果 下 是 一 个 特征 ，F, 是 一 个 随机 变量 ， 其 表示 变量 下 在 t 时 刻 的 值 。 一 个 动态 网 
络 包 含 下 面 几 个 假设 : : 
。 每 个 时 刻 特征 的 集合 是 相同 的 。 
。 对 于 任意 时 刻 oO, BRP 的 父 节 点 是 z 时 刻 的 变量 或 者 是 1 一 1 时刻 的 变量 ， 因 
此 图 是 非 周 期 的 。 结 构 并 不 依赖 于 t 值 ( 除 t=0 是 一 个 特殊 的 时 刻 )。 
。 每 个 时 刻 > 时 ， 变 量 怎样 取决 于 父 节点 的 条 件 概率 分 布 是 相同 的 。 
因此 ,一 个 动态 的 信念 网 络 中 指出 了 t=0 时 刻 的 信念 网 络 ， 每 个 变量 FF 指出 P CE， 
|parents(F,))， 在 这 里 ，F, 的 父 节 点 是 相同 的 或 是 前 一 次 步 长 。 对 而 言 ， 这 作为 一 个 
自由 的 参数 被 指出 。 对 于 任意 SO 的 时 刻 ， 可 以 使 用 条 件 概 率 ， 正 如 在 信念 网 络 中 ， 直 
接 的 循环 是 不 允许 的 。 
动态 信念 网 络 模型 能 够 被 描述 为 一 个 两 步 信念 网 络 ， 其 表示 最 初 两 次 (0 和 1) 的 变量 ， 
也 就 是 说 ， 每 个 特征 下 有 两 个 变量 下 , 和 Fo, parents(F, (iG t=0 的 变量 ，parents 
(PR,) 可 以 是 上 为 0 或 者 1 时刻 的 变量 ， 只 要 结果 图 是 无 环 的 。 和 网 络 相关 的 概率 是 PCF。 
| parents(F,)) #l PCF; | parent(F;)). AHBRMWAW, MHP i, i>1, PCF, | parents 
(F;)) #45 PCP, | aarentsCF)) 完 全 相同 的 结构 和 相同 的 条 件 概率 。 
LB 6-31] 假设 交易 Agent 想 要 对 商品 (例如 打 
印 纸 ) 交 易 价格 的 动态 性 进行 建 模 。 为 了 表示 这 个 域 ， 
设计 者 对 影响 价格 的 变量 和 其 他 变量 进行 了 建 模 。 设 
想 纸 浆 的 成 本 和 运输 成 本 直接 影响 纸 的 价格 。 运 输 成 
本 受 天 气 的 影响 ,纸浆 的 价格 受 树 虫 多 少 的 影响 ， 反 
过 来 它 也 受 天 气 的 影响 。 假 设 每 个 变量 依赖 于 先前 时 
间 步 的 值 。 图 6-19 显示 了 描述 这 些 依赖 关系 的 两 步 
动态 信念 网 络 。 
注意 ， 图 中 的 变量 初始 时 是 独立 的 。 
这 个 两 步 动态 信念 网 络 能 够 被 扩展 成 为 一 个 常规 
的 动态 信念 网 络 ， 这 是 通过 复制 每 个 时 间 步 的 节点 来 
实现 的 ,并且 未 来 步 中 父 节点 是 1 时 刻 变 量 父 节点 的 
一 个 复制 。 图 6:20 显示 了 一 个 扩展 的 信念 网 络 。 下 
[272] 标 表示 变量 相关 的 时 间 。 图 6-19 ”纸张 价格 的 两 步 动 态 信念 网 络 
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图 6-20 ”纸张 价格 的 扩展 动态 信念 网 络 <S [273 


6.5.5 时 间 粒 度 


HMM 的 定义 和 动态 信念 网 络 中 存在 的 问题 之 一 是 模型 依赖 于 时 间 粒 度 。 时 间 粒 度 可 
以 是 固定 的 ， 例 如 一 天 或 者 一 秒 的 1/30， 当 然 它 也 可 能 是 基于 事件 的 ， 此 时 当 一 些 令 人 感 
兴趣 的 事情 发 生 时 ， 则 存在 一 个 时 间 步 。 如 果 时 间 粒 度 发 生变 化 ， 如， 从 天 到 小 时 ， 那 么 
条 件 概 率 也 必须 发 生 改 变 。 

独立 于 时 间 粒 度 的 一 种 动态 建 模 方 式 是 针对 每 个 变量 和 每 个 变量 的 值 进 行 建 模 ， 即 
模拟 ; 

。 变量 的 值 预期 要 保留 的 时 间 。 

。 当 值 发 生变 化 时 ， 它 将 会 转变 为 什么 值 。 

如 果 给 定 离 散 化 的 时 间 和 状态 转移 的 时 间 模 型 ， 如 指数 衰减 ， 根 据 这 些 信息 就 可 以 构 
建 动态 信念 网 络 。 如 果 时 间 的 离散 化 足够 精细 ， 忽 略 每 个 时 间 步 的 多 值 转移 ， 由 此 产生 的 
误差 会 很 小 。 见 习题 6. 12。 


6.6 本 章 小 结 


。 概率 可 以 在 不 确定 的 情况 下 用 于 决策 。 

， 后 验 概率 基于 证 据 来 更 新 Agent 的 信念 。 

© 贝 叶 斯 信念 网 络 可 以 用 来 描述 域 的 独立 性 。 

， 可 以 对 稀 玖 图 ( 低 树 宽 ) 实 现 精确 推理 。 

。 随机 模拟 可 用 于 近似 推理 。 

> 隐 马 尔 可 夫 模 型 或 动态 信念 网 络 可 用 于 适时 的 概率 推理 ， 比 如 定位 。 


6.7 参考 文献 及 进一步 阅读 


人 工 智 能 的 角度 介绍 概率 论 和 ( 贝 叶 斯 ) 信 和 念 网 络 ， 参 考 了 Darwiche[ 2009], [Koller 和 Friedman, 
2009], Pearl[1988], Jensen[1996], Castillo, Gutiérrez 和 Hadi[1996] 的 介绍 。 Halpern[ 1997] 综 述 了 逻辑 与 
概率 之 间 的 关系 。Bacchus、Grove、Halpermn 和 Kolljer[1996] 对 于 概率 推理 提出 了 一 种 随机 世界 的 方法 。 
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在 Zhang 和 Poole[1994]、Dechter[1996] 的 文章 提出 变量 消除 的 方法 来 评估 信念 网 络 。Bodlaender 
[1993] 探 讨 了 树 宽 问题 。 

信息 理论 的 综述 可 以 参阅 文献 Cover、Thomas[1991] 和 Grünwald[2007]. 

对 于 因果 关系 的 讨论 可 以 参阅 文献 Pearl[2000] 和 Spirtes 等 [2000] 。 

对 于 随机 模拟 的 介绍 可 以 参阅 文献 Rubinstein[1981]、Andrieu、de Freitas, Doucet 和 Jordan 
L2003]。 信 和 念 网 络 中 的 前 向 采样 是 基于 文献 Henrion[1988] 的 ， 文 中 称 为 罗 辑 采 样 。 这 里 所 描述 的 信念 网 
络 的 重要 性 采样 是 基于 文献 Cheng 和 Druzdzel[2000] 的 ， 文 中 还 考虑 到 如 何 学 习 提 议 分 布 。 文 献 Doucet, 
de Freitas 和 Gordon[ 2001 | 是 一 系列 的 关于 粒子 滤波 的 文章 。 

隐 马 尔 可 夫 模 型 参见 文献 Rabiner[ 1989], Dean 和 Kanazawa[ 1989 | 介绍 了 动态 贝 叶 斯 网 络 。Thrun、 
Burgard 和 Fox[2005 | 描述 了 有 关 概 率 和 机 器 人 学 之 间 关 系 的 马尔 可 夫 定 位 及 其 相关 问题 。 定 位 方面 粒子 
滤波 的 使 用 参阅 文献 Dellaert、Fox、Burgard 和 Thrun[ 1999]. 

有 关 人 工 智 能 的 不 确定 性 ， 在 年 会 和 普通 的 AI 会 议 上 会 提出 最 新 的 研究 成 果 。 


6.8 习题 


6.1 只 使 用 概率 公理 和 条 件 独立 性 的 定义 证 明 命题 6. 5。 
6.2 考虑 图 6-21 中 的 信念 网 络 ， 其 中 电气 领域 延伸 到 包括 高 射 投影 仪 。 回 答 以 下 关于 一 些 变量 的 值 如 
何 影响 到 另 一 些 变量 信念 的 知识 的 问题 ; 
(a)“ 投 影 仪 电源 插座 接 通 ”的 值 的 知识 对 “sam 读书 ” 值 的 信念 能 产生 影响 吗 ? 请 做 出 解释 。 
(b)“ 屏 幕 亮 ”的 知识 对 “sam 读书 ”的 信念 有 影响 吗 ? 请 做 出 解释 。 
Co) 如 果 给 出 你 已 经 观察 到 “屏幕 亮 " 的 值 ,“ 投 影 仪 电 源 插 座 接 通 ” 的 知识 会 对 “sarm 读书 "的 信念 产 
生 影 响 吗 ? 请 做 出 解释 。 
Cd) 如 果 只 是 观察 到 “ 灯 正 常 *， 哪 些 变 量 可 以 改变 它们 的 概率 ? 
Co) 如 果 只 是 观察 到 “投影 仪 通电 ”， 哪 些 变 量 可 以 改变 它们 的 概率 ? 





ray 说 "屏幕 是 黑 的 ” 


图 6-21 高 射 投影 仪 信念 网 络 
6.3 使 用 信念 网 络 表示 习题 5. 8 中 的 情形 。 显 示 网 络 结构 并 隐藏 观察 到 的 节点 。 给 出 所 有 初始 因 式 ， 对 
于 条 件 概率 作出 合理 的 假设 (应 该 遵循 习题 中 的 情节 ， 但 允许 一 些 噪音 ) 。 
6.4 假设 要 诊断 出 当 加 人 多 位 二 进 制 数 时 在 校 学 生 所 犯 的 错误 。 假 设 只 考虑 增加 两 个 两 位 数字 ， 以 形成 
三 个 三 位 数学 < 
也 就 是 说 ， 问 题 的 形式 为 : 


A, Ap 
+ BiB, 


C,0,C, 


6.5 


6.6 


6.7 


6.8 
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KH. A, BAC, 是 所 有 二 进 制 数字 。 

(a) 假设 我 们 想 要 模拟 学 生 是 否 知 道 二 进 制 加 法 以 及 他 们 是 否 知道 如 何 运 算 。 如 果 他 们 知道 ， 他 们 
通常 会 得 到 正确 的 答案 ， 但 有 时 他 们 会 犯错 误 。 如 果 他 们 不 知道 如 何 做 相应 任务 。 他 们 就 只 能 
猜测 。 

你 必须 指出 建立 二 进 制 加 法 模型 ， 哪 些 变量 是 必需 的 ， 哪 些 错误 是 学 生 会 犯 的 ， 也 就 是 说 ， 每 
个 变量 代表 什么 。 给 出 一 个 DAG 指定 这 些 变 量 依赖 关系 。 

Cb) 对 域 来 说 ， 什 么 是 合理 的 条 件 概率 ? 

(c) 可 以 通过 使 用 Alspace. org 信念 网 络 工具 来 实现 。 测试 不 同情 况 下 你 的 表示 。 

给 出 图 来 解释 每 个 变量 的 含义 、 给 出 概率 表 ， 并 且 展 示 各 种 例子 如 和 何 运 作 。 

在 这 个 问题 中 ,你 要 构建 一 个 在 习题 5. 10 描述 的 深 空 一 号 飞船 (DS1) 的 信念 网 络 表示 。 图 5-14 i 

述 了 实际 DS] 发 动机 设计 的 一 部 分 。 

假设 以 下 情形 : 

* ila) fe open 或 closed. 

。 MRANAFAARSE. ARS, MRAIMFKARBAAASTM. KE A 
ok; 气体 永远 都 不 会 流出 的 情况 下 ， 它 的 值 为 ,brokeri 不 论 阀 门 是 打开 还 是 关闭 ， 气 体 都 会 独 
立 流 出 ， 它 的 值 为 stuck; MEMRAM TR BRA. ERIE leaking. 

。 有 三 个 气体 传感器 能 够 探测 到 气体 泄漏 (但 不 会 探测 出 是 哪 种 气体 ;。 第 一 个 气体 传感器 检测 来 
自 最 右边 的 闪 门 (v1，…，w4) 中 的 气体 ， 第 二 个 气体 传感器 检测 来 自 中 间 阀 门 (v5，…，w12) 的 
气体 ， 第 三 个 气体 传感器 检测 来 自 最 左边 阀门 (ol3，…， 了 6) 的 气体 。 

(a) 建立 一 个 域 的 信念 网 络 表示 。 必 须 考虑 到 最 上 面 的 阀门 (那些 送 人 发 动机 el 的 阀门 )， 确 保有 适 
当 的 概率 。 

Cb) 在 一 些 特殊 例子 中 测试 你 的 模型 。 

考虑 下 面 的 信念 网 络 : 





其 布尔 变量 (将 A=true Ha, H A= false 记 为 -a) 和 条 件 概 率 如 下 : 
P(a) = 0,9 P(d|b) = 0.1 
Pt) = 0.2 P(d| “WD = 0.8 
P(c|a.b) = 0.1 P(e|c) = 0.7 
Ple |as =b) = 0.8 Piel a= 02 
Ple| >a:b) = 0.7 P(f|c) = 02 
Ple| 7a,76) = 0.4 PEF | +e) =0.9 
(a) 使 用 VE 来 计算 PCe)。 首 先 ， 删 除 无 关 变 量 。 对 于 给 定 的 消除 顺序 显示 创建 的 因 式 。 
(b) 假设 使 用 VE 来 计算 Peel ” 户 。 以 前 计算 有 多 少 可 重复 利用 ? 显示 出 不 同 于 (a) 部 分 中 的 
因 式 。 
解释 如 何 拓展 VE 来 允许 更 多 的 普通 观察 和 查询 。 特别 的 ,请 回答 以 下 问题 : 
(a) 如 何 拓 展 VE 算法 以 允许 变量 值 的 析 取 (例如 ， 苹 二 aV XX 二 5 这 种 格式 )? 
(b) 如 何 拓展 VE 算法 以 观察 不 同 变量 值 的 析 取 (例如 ，X 一 <“VY 一 5 这 种 格式 )? 
(c) 如 何 拓展 VE 算法 来 允许 计算 一 组 变量 的 边缘 概率 5 例如， 求解 P(XY|e) 的 边缘 概率 )? 
在 核 研 究 潜艇 中 ， 传 感 器 测量 反应 堆 堆 芯 的 温度 。 如 果 传 感 器 读数 异常 高 (S 一 true)， 表 明 核 心 过 
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6.9 


6. 11 


6. 13 


$ CC=true), WALERIA = true), Fk AB ae ER AEA HKG (S_ok= false, A_ok= false), jx F] 
能 会 导致 它们 出 现 故障 。 可 以 通过 图 6-22 中 的 信念 网 络 来 建立 报警 
系统 的 模型 。 

(a) 此 网 络 中 的 初始 因 式 是 什么 ? 对 于 每 个 因 式 ， 列 出 它 代表 什么 ， 
它 是 什么 变量 的 函数 。 

Cb) 给 出 报警 器 无 故障 ， 即 PCc| a) 的 情况 下 如 何 使 用 VE 来 计算 核 
心 过 热 的 概率 。 对 于 每 个 消除 的 变量 ， 说 明 哪 些 变量 被 消除 ， 哪 
些 因 式 被 移 除 ， 又 建立 了 哪些 因 式 ， 包 括 每 个 因 式 作用 在 什么 变 
量 ， 解 释 如 何 通过 最 后 一 个 因 式 获 得 答案 。 

(c) 假设 我 们 又 添加 一 个 相同 的 传感器 到 系统 中 ， 当 两 个 传感器 中 任 
何 一 个 读 到 高 温 时 就 触发 报警 器 。 As ai 图 6-22 ”核潜艇 的 信念 网 络 
都 是 相对 独立 的 。 给 出 相应 的 扩展 信念 网 络 。 

继续 习题 5. 14。 

(a) 解释 一 个 信念 网 络 模型 需要 的 知识 (关于 物理 的 和 学 生 的 )? 

(b) 在 域 中 使 用 信念 网 络 (使 用 诱导 性 诊断 或 基于 一 致 性 的 诊断 ) 的 主要 优势 是 什么 ? 

(c) 在 此 域 中 与 使 用 信念 网 络 相 比 ， 使 用 诱导 性 诊断 或 基于 一 致 性 诊断 的 主要 优势 是 什么 ? 

在 重要 性 采样 中 ， 采 样 每 个 非 观 察 变 量 ， 不 需要 全 面 执行 VE 算法 。 在 这 种 情况 下 给 出 证 据 ， 解 

释 如 何 计 算 采 样 的 概率 .【 提 示 : 注意 抽取 子 节点 以 及 可 观察 变量 的 父 节 点 都 是 可 能 的 ,】 

考虑 隐 马 尔 可 夫 模 型 中 的 滤波 问题 。 

(a) 对 于 某 给 定 未 来 与 过 去 观察 结果 的 变量 X;， 给 出 概率 公式 。 公 式 应 包含 一 个 来 自 先前 状态 的 
因 式 ,一 个 来 自 后 续 状 态 的 因 式 ,它们 相 结 合 决定 X 的 后 验 概率 。X;-! 需 要 的 因 式 在 没有 重 
新 计算 来 自 X;41 的 信息 下 ， 是 如 何 计算 的 ?【 提 示 : 考虑 删除 最 左边 的 变量 ， 也 删除 最 右边 的 

量 ， 如 何 用 VE 来 计算 的 后 验 分 布 。】 

(b) 假设 已 计算 出 每 个 状态 Sis o S 的 概率 分 布 ， 然 后 得 到 时 刻 & 十 1 的 观察 。 每 个 变量 的 后 
验 概率 在 时 间 上 是 如 何 线性 更 新 的 ?7【〖 提 示 : 需要 存储 的 不 仅 是 每 个 S; 上 的 分 布 .】 

考虑 产生 动态 信念 网 络 的 问题 。 正 如 第 6. 5.5 节 中 一 样 ， 给 定 一 个 特定 的 离散 化 时 间 、 过 渡 时 间 

和 状态 转移 的 表示 。 假 设 存 在 一 个 变量 在 一 个 状态 中 能 保持 时 间 的 指数 分 布 ， 并 且 指 定 了 每 个 变 

量 值 的 半衰期 。 给 出 动态 信念 网 络 的 表示 ， 假设 每 一 时 间 步 内 仅 有 一 个 过 渡 。 

假设 你 的 老板 对 背 着 相机 、 绕 着 工厂 的 机 器 人 定位 感 兴趣 。 老 板 听 过 变量 消除 、 舍 选 采样 、 粒 子 

滤波 的 知识 ， 想 知道 这 些 技术 中 哪个 最 适合 此 项 任务 。 你 必须 给 老板 写 一 份 报告 (使 用 适合 的 语 

句 )， 说 明 哪 种 技术 是 最 适合 的 。 解 释 为 什么 放弃 另外 两 种 技术 。 对 于 最 合适 的 技术 ， 说 明 使 用 这 

种 技术 定位 必需 的 信息 是 什么 。 

(a) VE( 即 隐 马 尔 可 夫 模 型 中 的 精确 推理 ) 。 

b) FER. 

(c) 粒子 滤波 。 
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学 习 概述 与 有 监督 学 习 





年 轻 时 荒废 学 业 的 人 ， 失 去 的 不 仅 是 过 击 的 时 光 ， 还 有 他 的 未 来 。 
Euripides( 公 元 前 484 一 前 406， 十 希腊 悲剧 作家 ) 
CRE ZR). Frag. 927 





学 习 指 的 是 一 个 Agent 基于 经 验 改善 其 行为 的 能 力 。 这 意味 着 Agent 能 够 : 

。 扩展 活动 的 范围 一 一 做 得 更 多 。 

。 提高 任务 的 精确 性 一 一 做 得 更 好 。 

。 提高 处 理 速度 一 一 做 得 更 快 。 

学 习 是 一 个 智能 Agent 的 必 备 能 力 。 正 如 Euripides 指出 的 那样 ， 学 习 涉 及 一 个 Agent 
以 某 种 方式 记 住 在 未 来 能 派 上 用 场 的 过 去 经 验 。 

本 章 介绍 有 监督 学 习 : 给 定 一 组 由 输入 -输出 对 组 成 的 训练 样本 ， 预 测 一 个 新 输入 所 
对 应 的 输出 。 我 们 将 说 明 这 种 学 习 方式 可 由 4 种 途径 加 以 实现 ;选择 单一 的 完美 适应 训练 
样本 的 假设 ; 从 训练 样本 直接 做 出 预测 ; 选择 与 训练 样本 一 致 的 假设 空间 的 子 集 ; 寻找 条 
件 依赖 于 训练 样本 的 假设 的 后 验 概率 分 布 。 

第 11 章 介绍 有 监督 之 外 的 学 习 模 型 ， 包 括 聚 类 (经 常 被 称 做 无 监督 学 习 ) 、 概 率 模型 
与 增强 学 习 。14. 2 节 介 绍 关系 表示 学 习 。 


7.1 学 习 问 题 


任 一 个 学 习 问 题 均 由 下 述 三 个 部 分 组 成 : 
任务 (task): 和 欲 改善 的 行为 或 任务 。 
MH (data); 用 于 在 任务 中 提升 性 能 的 经 验 。 
性 能 改善 度量 (measure of improvement): 性 能 改善 是 如 何 度量 的 ? 例如 ， 获 得 了 最 
初 不 具备 的 新 技能 ， 提 高 了 预测 的 准确 率 ， 或 是 提高 了 处 理 的 速度 等 。 
考虑 如 图 2-9 所 示 的 Agent 内 部 构造 ， 学 习 就 是 输入 先 验 知识 和 数据 (例如 ， 有 关 
Agent 经 验 的 数据 ) 并 形成 一 种 内 部 的 表示 形式 (知识 库 )， 这 种 表示 可 以 被 Agent 在 行动 时 
加 以 利用 。 
这 种 内 部 表示 可 以 是 原始 的 经 验 数 据 本 身 ， 但 更 为 常见 的 是 对 数据 进行 概括 的 简洁 表 
示 。 基 于 样 例 推断 内 部 表示 的 过 程 经 常 被 称 为 归纳 (induction)。 与 之 对 应 的 一 个 概念 是 演 
绎 ， 它 从 知识 库 经 由 逻辑 推理 得 到 结论 ;与 之 对 应 的 另 一 个 概念 是 溯 因 推理 ， 它 假定 对 于 
一 个 特例 来 说 什么 可 能 是 正确 的 。 
在 选择 表示 形式 的 时 候 ， 存 在 两 种 相互 矛盾 的 准则 : 
。 表示 形式 越 丰富 ， 对 后 续 的 问题 求解 就 越 有 用 。 对 Agent 学 习 问 题 求解 方法 来 说 ， 
表示 形式 必须 足够 丰富 以 便 能 够 表达 这 种 求解 方法 。 
。 表示 形式 越 丰 富 ， 学 习 就 越 困难 。 非 常 丰 富 的 表示 形式 难于 进行 学 习 的 原因 是 它 
需要 大 量 的 数据 ， 而 且 经 常 存在 不 同 的 假设 与 这 些 数据 一 致 。 
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智能 所 需 的 表示 形式 是 两 种 准则 之 间 的 一 种 折 中 ( 见 1.4 节 )。 学 习 表 示 形 式 的 能 力 是 
智能 的 一 种 ， 但 绝 不 是 唯一 的 一 种 。 

学 习 技 术 包 括 如 下 一 些 议题 : 

任务 : 实际 上 ，Agent 能 够 获得 数据 或 经 验 的 任意 任务 均 可 学 习 。 最 常见 的 学 习 任 务 
是 有 监督 学 习 (supervised learning)， 即 给 定 一 些 输 入 特征 、 一 些 输 出 特征 和 一 个 训练 集 
(training example) (其 中 的 每 个 样 例 都 指定 了 输入 特征 和 输出 特征 的 值 )， 预 测 一 个 新 样 例 
(其 输入 特征 值 已 知 ) 的 目标 特征 值 。 当 目标 变量 取 离 散 值 的 时 候 ， 这 种 学 习 称 为 分 类 
(classification); 而 当 目 标 变 量 取 连续 值 的 时 候 ， 则 称 为 回归 (regression)。 

其 他 学 习 任 务 包 括 : 训练 样本 类 别 未 知 时 的 分 类 学 习 ( 无 监督 学 习 )、 基 于 奖惩 的 学 习 
(增强 学 习 ) 、 学 习 更 快 推理 (分 析 学 习 )， 以 及 学 习 更 为 丰富 的 表示 形式 如 逻辑 程序 (归纳 
逻辑 编程 ) 或 贝 叶 斯 网 络 。 

RR: 学 习 任 务 可 以 通过 施加 于 学 习 器 的 反馈 来 描述 。 在 有 监督 学 习 中 ， 用 于 学 习 的 
每 个 样 例 均 已 被 指定 了 类 别 。 当 一 个 训练 器 给 出 每 一 个 样 例 的 分 类 时 就 产生 了 监督 分 类 。 
当 Agent 获得 了 对 于 每 个 动作 (活动 ) 的 价值 的 即刻 反馈 时 就 产生 了 动作 (活动 ) 的 监督 学 
习 。 当 没有 给 定 类 别 信息 ， 学 习 器 必须 自己 发 现 数据 中 的 类 别 和 规则 时 发 生 无 监督 学 习 
(unsupervised learning)。 反 馈 经 常 发 生 于 这 两 种 极端 情况 ( 即 有 监督 学 习 与 无 监督 学 习 ) 
之 间 ， 例 如 在 增强 学 习 (reinforcement learniag) 中 ， 基 于 奖惩 的 反 饥 发 生 在 一 系列 动作 之 
后 。 这 会 带 来 所 谓 的 “信任 度 分 配 问 题 *(credit-assignment problem)， 即 确定 动作 的 奖赏 
或 惩罚 问题 。 举 个 例子 ， 用 户 可 能 奖励 一 个 传送 机 器 人 但 并 没有 确切 告知 是 因为 什么 而 获 
奖 ， 此 时 机 器 人 就 必须 学 习 获 奖 的 原因 ， 即 在 什么 条 件 下 执行 什么 动作 。 在 没有 明确 哪些 
动作 的 后 果 会 带 来 奖赏 的 情形 下 ， 学习 执 行 什么 动作 是 可 能 的 。 

表示 : Agent 的 经 验 必然 影响 其 内 部 表示 形式 。 许 多 机 器 学 习 方法 的 研究 就 是 基于 特 
定 表示 形式 (决策 树 、 神 经 网 络 或 案例 等 ) 的 。 本 章 介 绍 一 些 标准 的 表示 形式 以 展示 学 习 的 
共同 特征 。 ~ 

在 线 学 习 与 离线 学 习 : 在 离线 学 习 (offline learning) 中 ， 所 有 的 训练 样本 在 Agent fF 
动 之 前 就 已 经 给 定 。 而 在 在 线 学 习 (online learning) 中， 训练 样本 在 Agent 行动 中 到 达 。 
这 需要 Agent 在 它 观察 到 所 有 的 样本 之 前 就 具有 某 些 关 于 已 经 观察 到 的 样本 的 表示 的 知 
识 ， 当 一 个 新 样本 来 临时 更 新 这 种 表示 。 总 之 ，Agent 从 没 看 到 所 有 的 样 例 。 主 动 学 习 
(active learning) 是 在 线 学 习 的 一 种 形式 ， 在 这 种 学 习 中 Agent 通过 行动 获得 对 学 习 有 用 
的 样 例 ， 即 Agent 推断 哪些 样 例 是 对 学 习 有 用 的 并 收集 这 些 样 例 。 

度量 : 学 习 基 于 某 些 提升 性 能 的 度量 来 定义 。 为 了 知道 Agent 是 否 成 功 学 习 ， 必 须 定 
义 一 些 学 习 成 功 与 否 的 度量 。 这 种 度量 往往 不 是 考察 Agent 在 训练 样本 上 的 表现 好 坏 ， 而 
是 对 于 新 样本 它 表现 如 何 。 

在 分 类 学 习 中 ， 能 够 正确 分 类 所 有 的 训练 样本 并 非 问 题 的 本 质 所 在 。 例 如 ， 考 虑 一 个 
给 定 样本 集 的 布尔 特征 预测 问题 ， 并 假设 有 两 个 Agent, WPAN., 认为 属于 负 类 的 样 
本 就 是 训练 集中 的 负 样 本 ， 其 他 样本 (包括 不 在 训练 集中 的 样本 ) 均 为 正 样本 ; N 则 认为 属 
于 正 类 的 样本 就 是 训练 集中 的 正 样本 ， 其 他 样本 (包括 不 在 训练 集中 的 样本 ) 均 为 负 样 本 。 
显然 ， 它 们 都 正确 地 分 类 了 训练 集中 的 每 一 个 样本 ， 但 对 于 其 他 样本 的 分 类 则 是 相互 矛盾 
的 。 学 习 是 否 成 功 ， 不 能 看 正确 分 类 了 训练 样本 与 否 ， 而 是 要 看 是 否 能 够 正确 分 类 还 未 出 
现 的 样本 。 因 此 ， 一 个 学 习 器 必须 具有 泛 化 (generalize) 能 力 : 超越 特定 的 训练 样本 去 分 类 
还 未 出 现 的 样本 。 
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度量 成 功 与 否 的 一 种 标准 方法 是 将 样本 分 为 训练 集 和 测试 集 ， 利 用 训练 集 建立 表示 ， 
然后 在 测试 集 上 考察 其 预测 准确 率 。 当 然 ， 这 只 是 我 们 所 需要 的 度量 的 一 种 近似 ， 真 正 的 
度量 是 它 在 未 来 任务 上 的 表现 能 力 。 

偏 置 : 对 于 一 个 假设 的 偏好 称 为 偏 置 (bias)。 考 虑 先前 定义 的 Agent N 和 Agent P, 
我 们 说 一 个 假设 优 于 N( 或 P) 的 假设 ,不 是 指 从 训练 集 (在 该 集合 上 N 和 了 均 准 确 地 分 类 
了 所 有 的 样本 ) 上 得 到 的 某 些 结论 ， 而 是 指 从 训练 集 之 外 的 数据 上 获得 的 结果 。 如 果 没 有 
WE Agent 将 无 法 对 未 知 的 样本 做 出 预测 。P 和 NN 采用 的 假设 对 于 未 来 样本 的 预测 是 互 
HAA GAY, WR Agent 不 能 从 中 选择 一 个 较 好 的 假设 ， 它 将 不 能 消除 这 种 分 歧 。 总 之 为 
了 使 得 任意 的 归纳 过 程 对 未 来 的 样本 能 够 做 出 预测 ，Agent 需要 一 个 偏 置 。 什 么 是 一 个 好 
的 偏 置 是 一 个 经 验 性 的 问题 ， 它 考察 什么 样 的 偏 置 在 实践 中 工作 得 最 好 。 对 于 了 或 六 的 
偏 置 ， 我 们 没有 认定 它们 在 实践 中 工作 良好 。 

搜索 学 习 : 给 定 表示 形式 和 偏 置 ， 学 习 可 以 简化 为 一 个 搜索 问题 。 在 可 能 的 表示 空间 
中 进行 搜索 ， 以 便 在 给 定 偏 置 的 条 件 下 找 出 与 数据 最 匹配 的 表示 形式 。 不 幸 的 是 ， 除 了 最 
简单 的 样 例 ， 搜 索 空 间 往 往 很 大 ， 以 致 进行 完全 搜索 是 不 可 行 的 。 在 机 器 学 习 中 ， 几 乎 所 
有 的 搜索 技术 都 可 以 被 看 成 是 在 表示 空间 上 的 局 部 搜索 。 学 习 算法 可 由 搜索 空间 、 评 估 函 
数 和 搜索 方法 来 定义 。 

RE: 大 多 数 现实 世界 中 的 情况 是 数据 并 非 完 全 正确 。 数 据 中 存在 噪声 (一 些 特 征 被 


O 赋予 错误 的 值 ) 、 不 恰当 的 特征 (该 特征 于 预测 分 类 无 益 ) 以 及 带 有 特征 缺失 的 样本 。 学 习 


算法 的 一 个 重要 特征 是 其 处 理 噪 声 数据 的 能 力 ， 不 管 这 种 噪声 是 以 何 种 形式 存在 。 

插值 和 外 推 : 对 于 那些 天 然 就 有 "在 …… 之 间 ? 择 值 的 情形 ， 例 如 对 时 间或 空间 进行 预 
测 ， 插 值 在 拥有 数据 的 案例 之 间 做 预测 。 外 推 指 的 是 对 还 未 出 现 的 样本 做 预测 。 一 般 的 ， 
外 推 比 插值 更 不 精确 。 例 如 ， 在 古代 天 文学 ， 托 勒 密 体系 (天 动 说 ) 和 日 心 体系 (地 动 说 ) 均 
用 周转 圆 ( 圆 里 套 着 圆 ) 对 太阳 系 的 运动 进行 了 细致 的 建 模 。 模 型 的 参数 可 以 调整 到 与 数据 
非常 匹配 ， 从 而 使 得 该 模型 在 插值 方面 做 得 非常 好 ， 但 在 外 推 方面 却 是 非常 精 糕 。 再 举 一 
个 例子 ， 在 给 定 某 一 天 之 前 及 之 后 的 价格 数据 的 情况 下 ， 预 测 该 天 的 股票 价格 通常 是 容易 
的 , 但 要 预测 明天 的 股票 价格 却 非常 困难 ， 而 这 种 预测 未 来 的 能 力 又 是 极其 有 价值 的 。 
Agent MI AED DR, Wid AKA BM BG xk le) TL. ELS FG FS A A 
用 于 外 推 。 


为 什么 我 们 信任 一 个 归纳 的 结论 


从 数据 中 学 习 时 ，Agent 对 超越 给 定 的 数据 做 预测 。 观 察 到 太阳 每 天 升 起 ， 大 们 就 
预测 太阳 天 天 也 将 升 起 ; 观察 到 没有 支撑 的 物体 反复 降落 ,小 孩 就 推断 它 将 总 是 降落 
(直到 他 偶然 看 到 充满 氮气 的 气球 ); 观察 到 许多 天 和 忽 是 黑色 的 ， 某 些 人 就 可 能 断定 所 有 
的 天 忽 都 是 黑色 的 。 考 虑 如 图 7-1 所 示 的 数据 ， 学 习 算 法 确定 一 种 表示 形式 以 便 预 测 用 
户 的 行为 在 该 用 户 所 属 的 样 例 中 ，Author、Thread、Length 和 WhereRead 字段 ( 特 
征 ) 的 值 分 别 是 unknown, new, long 和 wsork， 但 没有 告知 用 户 将 如 何 行动 。 这 个 例子 
带 来 的 问题 是 ，Agent 为 何 要 相信 这 种 并 非 是 逻辑 推导 (基于 Agent 的 知识 ) 所 得 到 的 
结论 ? 

当 Agent 采用 了 一 个 偏 置 或 选择 了 一 个 假设 ， 它 就 置身 于 训练 数据 之 外 了 一 即使 要 
预测 的 新 样 例 与 数据 中 的 旧 样 例 完 全 一 致 。 为 什么 Agent 相信 这 个 假设 而 非 其 他 假设 ? 
Agent 根据 什么 标准 选择 假设 ? - 
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最 常用 的 技术 是 依据 奥 卡 姆 剃刀 原理 (Ockharn's 
威廉 。 舆 卡 姆 是 一 位 英国 哲学 家 ， 他 出 生 于 大 约 1285 年 ，1349 年 死 于 一 场 瘟 疫 。 
“Oecam” 是 英国 小 镇 "“Ockham” 的 法 语 拼 写 ， 这 种 写法 经 常 被 采用 。 E AA 
Zik weME, Wwe” Edwards, 1967, Vol.8, P. 307], 

为 什么 我 们 信任 最 简单 的 假设 ， 特别 是 为 什么 要 根据 表达 假设 的 语言 来 判定 哪个 假设 
是 最 简单 的 ? 

首先 ， 可 以 合理 地 假定 现实 世界 是 存在 结构 的 ，Agent 需要 发 现 这 种 结构 以 便 做 出 合 
适 的 行动 。 搜 索 是 发 现 现实 世界 结构 的 一 种 合理 方法 。 高 效 的 搜索 策略 是 从 简单 的 假设 开 
始 ， 然 后 才 是 复杂 的 假设 。 如 果 没 有 发 现 结 构 ， 那 将 一 事 无 成 ! 现实 世界 中 已 经 发 现 了 许 
多 结构 的 事实 (例如 物理 学 家 发 现 的 所 有 结构 ) 让 我 们 相信 搜索 是 有 效 的 。 

简洁 性 依赖 于 语言 不 会 令 人 生 疑 。 语言 在 不 断 地 发 展 进 化 ， 它 使 得 人 们 能 够 表达 现实 
世界 的 结构 。 因 此 ， 我 们 期 望 日 常 语言 中 的 简洁 性 是 复杂 性 的 一 个 很 好 的 度量 。 

信任 归纳 假设 的 最 重要 原因 是 信任 它们 会 带 来 好 处 。 它 们 帮助 Agent 与 世界 进行 交互 
和 避免 被 杀害 ; 一 个 Agent 如 果 学 习 基 础 不 牢靠 ， 它 将 不 能 长 期 存活 。“ 最 简单 假设 ”这 种 
启发 式 规 则 是 有 用 的 ， 因 为 它 在 实际 中 奏效 可 行 。 


7.2 有 监督 学 习 
有 监督 学 习 的 抽象 定义 如 下 。 假 定 学 习 器 获得 了 下 述 数据 ; 
。 一 个 输入 特征 (input feature) MEA. Xi. +. Xas 
。 一 个 目标 特征 (target feature) HG. Yi. <> Yes 
。 一 个 训练 样本 (training punane 对 于 每 一 个 样本 ， se AMER B 
标 特 征 的 值 均 已 给 定 ; 


。 一 个 测试 样本 (test example) 的 集合 ， 其 中 只 给 定 了 输入 特征 的 值 。 ， 

学 习 的 目标 是 预测 测试 样本 和 尚未 出 现 的 样本 中 目标 特征 的 值 。 典 型 的 ， 学 习 是 表示 
形式 的 构建 ， 该 表示 形式 可 依据 新 样本 输入 特征 的 描述 进行 预测 。 

令 e、 玉 和 wal(e，F) 分 别 表示 一 个 样本 、 一 个 特征 和 样本 。 在 特征 下 上 的 值 。 

【 例 7-1] 7-1 所 示 的 是 一 个 典型 分 类 任务 的 训练 与 测试 样本 。 目 标 是 预测 某 个 人 
是 否 阅 读 发 布 在 电子 公告 牌 上 的 文章 (已 经 给 定 该 文章 的 特性 )。 输 入 特征 分 别 是 Author, 
Thread, Length 和 WhereRead; 目标 特征 只 有 一 个 ， 即 UserAction。 总 共有 18 个 训练 样 
本 ,它们 的 特征 值 均 已 知 。 

在 该 数据 集中 ，wal(en，Author) = unknown, vallen, Thread) = followUp, val 
(ell UserAction) =skips. 

学 习 目标 是 预测 给 定 了 输入 特征 值 的 新 样本 的 UserAction 值 。 < 

最 常用 的 学 习 方 法 是 考察 包括 所 有 可 能 表示 的 假设 空间 (hypothesis space) 。 每 一 个 可 
能 的 表示 均 为 一 个 假设 (hypothesis)。 假 设 空间 通常 是 有 限 大 ， 或 是 可 列 无 限 大 的 空间 。 
可 应 用 下 述 方法 进行 预测 : 

。 根据 某 个 较 好 的 度量 ， 在 假设 空间 中 找到 最 好 的 假设 ; 

。 所 有 假设 均 与 训练 样本 一 致 ; 

。 在 训练 样本 提供 证 据 的 前 提 下 ， 计 算 假设 的 后 验 概率 。 

一 种 例外 的 情形 是 ， 基 于 案例 的 推理 直接 使 用 样本 。 
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known new 
unknown new 
unknown follow Up 
known follow Up 
known new 
known follow Up 
unknown follow Up 
unknown new 
known follow Up 
known new 
unknown follow Up 
known new 
known follow Up 
known new 
known new 
known follow Up 
known new 
unknown new 
eið unknown new long work ? 
e20 unknown follow Up long home 7 


7-1 用 户 阅读 偏好 的 例子 。 这 是 一 些 通 过 观察 用 户 决定 是 否 阅 读 发 布 到 有 线 状 图 案 装饰 的 讨论 板 上 的 
文章 而 收集 到 的 训练 和 测试 样本 。 用 户 的 决定 依赖 于 文章 的 一 些 特性 ， 如 作者 是 否 知名 、 是 否 开 
始 一 个 新 主题 或 只 是 跟随 式 的 讨论 、 文 章 的 长 度 和 在 家 阅读 还 是 在 单位 阅读 。e ，-…，eis 为 训练 样 
本 。 目 标 是 预测 样本 es 、e 以 及 目前 还 未 出 现 的 样本 上 用 户 的 行为 (特征 UserAction 的 值 ) 


7.2.1 评估 预测 


如 果 e 为 一 个 样本 ， 目 标 特征 Y 的 点 估计 (point estimate) 指 的 是 并 在 样本 e 里 的 预测 
值 ， 记 为 pvalle, Y), e Æ Y KRÆ (error) EE pval(e, YAM val(e,，Y) 的 接近 程度 ， 
其 中 valle, YMA Y He 里 的 真实 值 。 
对 于 回归 问题 ， 目 标 特 征 Y 取 实 数 (连续 ) 值 ， 因 而 pual(e, 了 ) 和 valle, 了) 均 为 实 
数 ， 它 们 可 以 进行 算术 意义 上 的 比较 运算 。 
对 于 分 类 问题 ， 目 标 特 征 Y 取 离散 值 ， 这 可 分 为 多 种 情况 加 以 讨论 : 
。 了 是 二 元 变量 ( 即 取 值 为 0 或 1)， 预 测 值 是 某 个 实数 。 此 时 预测 值 和 实际 值 可 以 进 
行 数值 比较 。 
。 了 是 多 元 变量 ( 即 取 值 多 于 二 值 )， 且 有 时 所 取 的 值 具有 全 序 关 系 、 大 小 可 按 比 例 
进行 缩放 (使 得 Y 的 每 一 个 取 值 都 可 以 用 一 个 实数 进行 关联 )。 在 这 种 情况 下 ， 预 
测 值 和 真实 值 可 以 基于 比例 关系 做 比较 。 然 而 ， 这 种 方法 即使 是 在 取 值 具 有 全 序 
关系 的 条 件 下 也 经 常 是 不 合适 的 。 例 如 ， 假 定 取 值 范围 是 short、medium 和 long, 
预测 值 为 shortV long 和 预测 值 为 medium 是 显然 不 同 的 。 
。 了 是 多 元 变量 ， 取 值 范围 为 {m ，…， 艾 }，&>2， 此 时 可 以 为 每 个 vi 单独 做 预测 。 
这 可 以 通过 引入 一 个 关联 于 每 个 也 的 二 元 指示 变量 (indicator variable) 来 实现 。 对 
于 每 一 个 样本 ， 当 站 取 值 w 时 指示 变量 取 值 1， 和 否则 取 值 0。 预 测 时 给 出 个 实 
数 一 一 每 个 实数 对 应 一 个 ww。 
【 例 7-2) 假定 一 个 交易 Agent 想 学 习 一 个 人 对 于 假期 长 度 (1、2、3、4、5 或 6 天 ) 
的 偏好 。 


第 7 章 学习 概述 与 有 监督 学 习 191 


一 种 表示 形式 是 定义 一 个 取 值 范围 为 假期 天 数 的 实 值 变 量 Y。 

男 一 种 表示 形式 是 定义 6 个 实 值 变量 ， Yin 5 Fis 其 中 Y; 代表 想 休假 i > 对 于 
每 一 个 样本 ， 当 假期 天 数 是 i 时 YY 二 1， AW Y,=o0. 

下 面 是 对 包含 5 个 数据 点 的 样本 集 采 用 两 种 不 同 表示 方法 的 例子 : 


si 示例 Y, Y: Ys Awe Y; Ka 
el 1 el 1 0 0 0 0 0 
e 6 Ez 0 0 0 0 0 1 
ea 6 es 0 0 0 0 0 1 
es 2 es 0 1 0 0 0 0 
és 1 es 1 0 0 0 0 0 


在 第 一 种 表示 方法 中 ， 对 一 个 新 样本 的 预测 值 可 以 是 任意 实数 ,例如 Y=3.2。 

在 第 二 种 表示 方法 中 ， 学 习 器 将 预测 每 个 Y; 的 值 。 一 组 可 能 的 预测 值 是 Yi =0.5, 
Yi 二 0. 3、Y 一 0.1、 了 一 0.1、Ys 一 0.1、YZ 三 0.5， 它 表明 这 个 人 可 能 愿意 休假 1 天 或 6 
天 ， 而 不 是 3、4 或 5 天 。 所 

在 下 面 的 定义 中 , 巨 代表 所 有 样本 的 集合 ，T 代表 目标 特征 的 集合 。 

关于 预测 的 一 些 度量 可 定义 如 下 : 

。 忆 上 的 绝对 误差 (absolute error) 指 的 是 在 每 个 样本 上 做 预测 所 得 的 绝对 误差 之 

Al, BP 


SDD) | wale. Y) — pual(esY) | 


绝对 误差 总 是 非 负 的 ， 仅 当 预 测 值 与 观察 的 实际 值 完 全 一 致 时 才 为 0。 
。 E EMA MRE (sum-of-squares error) NW 
3S) > cal (e,¥) — poal le, ¥))? 


与 小 误差 相 比 ， 该 度量 更 强调 大 误差 的 影响 : 大 误差 是 小 误差 的 两 倍 ， 导 致 的 恶 
劣 影 响 是 4 倍 大 ; 大 误差 是 小 误差 的 10 倍 ， 导 致 的 恶劣 影响 是 100 倍 大 。 


。 五 上 的 最 坏 情 况 误差 (worst-case error) 指 的 是 样本 中 的 最 大 绝对 误差 : 


max max |val(e,Y) 一 pual(e,Y) | 
ʻE YET 


此 时 ， 学 习 器 通过 其 最 差 的 情形 来 评估 其 性 能 。 


【 例 7-3] 假定 一 个 实 值 目 标 特 征 并 由 一 个 实 值 输入 特征 X 决定 ， 包 含 如 下 数据 点 
(X, Y): 


(0.741, Rea OE rapier magenta Ht 
E 7-2 显示 了 训练 数据 (实心 圆 ) 和 三 条 直线 Pi. Po, Pa (它们 根据 X 值 预测 Y 值 )。 
. P, AP; be mb hit 省 a, 





7-2 对 一 个 简单 样 例 集 的 线性 预测 。 实心 圆 代表 训练 样本 。P,、P; 和 Ps 分 别 是 最 小 化 样本 绝 
对 误差 、 平 方 和 误差 与 最 坏 情况 误差 的 线性 预测 (函数 )。 参 见 例 7-3 
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fe X=1.14b, P, 和 Ps 给 出 了 相似 的 预测 值 ， 即 Pi 是 1.805， Ps 是 1.709; 而 训练 
数据 包含 的 数据 点 是 (1.1，2.4)。 同 时 ，P; 给 出 的 预测 值 为 0.7。 在 [1，3j 之 间 进 行 插 
f. Pi, P: 和 P, 给 出 的 预测 值 的 差别 不 超过 1. 5。 而 当 进 行 外 推 的 时 候 ， 预 测 值 的 偏离 
就 越 来 越 明显 了 ，P; 和 P; 在 X=10 处 的 预测 值 是 非常 不 同 的 。 

最 小 化 不 同 误差 度量 的 直线 的 差别 主要 在 于 它们 处 理 异 常 样本 的 不 同 。 数 据点 (3.9， 
7) 为 异常 样本 ， 而 其 他 数据 点 近似 地 成 一 直线 。 ' 

基于 最 坏 情 况 误差 的 预测 直线 Ps 仅 依赖 于 3 个 数据 点 ， 即 (1.1，2.4)、(3.1，2.3) 
和 (3.9，7)。 对 于 Pa 而 言 ， 这 些 数据 点 具有 相同 的 最 坏 情况 误差 值 。 其 他 数据 点 可 以 处 
于 不 同 的 位 置 ， 只 要 它们 偏离 P 的 距离 比 这 3 个 数据 点 小 。 

相 比 之 下 ， 最 小 化 绝对 误差 的 预测 直线 Pi 并 不 随 训练 样本 的 真实 工 值 的 变化 而 变化 : 
直线 之 上 的 点 依然 在 直线 之 上 ， 直 线 之 下 的 点 依然 在 直线 之 下 。 例 如 ， 即 使 最 后 一 个 数据 
点 是 (3.9，107) 而 不 是 (3.9，7) ， 直 线 Pi 也 保持 不 变 。 

最 小 化 平方 和 误差 的 预测 直线 P: 对 所 有 的 数据 点 都 很 敏感 : 如 果 改 变 任 一 数据 点 的 
Y fA. Po 也 将 随 之 改变 。 < 

对 于 一 种 特殊 的 情形 ， 即 Y 取 值 {0，1)、 预 测 值 是 [0，1j] 之 间 的 某 个 实数 ， 则 存在 一 
些 用 于 布尔 域 的 预测 度量 标准 ， 其 中 true 和 false 分 别 被 看 成 1 和 0。 

。 数据 的 似 然 性 (likelihood of the data) 指 的 是 当 预 测 值 被 解释 为 概率 的 时 候 数据 取 

值 的 概率 : 
[I [pvatle Yom? C1 — poal(e, yyy me 


valle， 了 和 (1 一 val(e， 了 站) 两 者 之 中 一 个 为 1， 田 一 个 为 0。 因 此 ， 当 valle, Y=1 
时 该 乘积 使 用 pval(e，Y)， 和 否则 使 用 (1 一 pval(e，Y))。 具 有 较 大 似 然 性 的 预测 被 
认为 是 较 好 的 ， 而 具有 最 大 似 然 性 的 模型 则 称 为 最 大 似 然 模型 (maximum likeli- 
hood model) 。 

。 基于 将 pvalle, YARN Se AL. BE AH entropy) H A) 2 Al T 4a BR 


的 二 进 制 位 数 : 
一 oy > Calle ,Y)log pual(e,Y) + (1— wil(e,¥))log(l— pual(e,¥))] 
BEE AY THLE AY HE A Be) 9 。 


HEY Sai a (DLR EBS PT A ee Hg A He SR FE HY 
。 在 Y 取 值 0 或 1 的 基础 上 ， 限 定 预 测 值 也 取 值 0 或 1。 假 正 错误 (false-positive error) 49 

的 是 错误 的 正 预测 ( 即 预测 值 是 1， 而 真实 值 却 是 0)。 假 负 错 误 (false-negative error) 指 
的 是 错误 的 负 预 测 ( 即 预测 值 是 0， 而 真实 值 却 是 1) 。 不 同 的 错误 通常 与 不 同 的 代价 相 
关联 ， 例 如 如 果 存 在 关于 产品 是 否 安 全 的 数据 ， 那么 在 产品 不 安全 的 情形 下 断言 产品 
是 安全 的 代价 与 在 产品 安全 的 情形 下 断言 产品 是 不 安全 的 代价 可 能 是 不 同 的 。 

我 们 可 以 根据 Agent 对 于 学 习 之 外 的 样本 的 预测 的 好 坏 来 判定 Agent 是 否 拥 
有 一 个 好 的 学 习 算法 。Agent 进行 预测 存在 两 种 极端 情况 : 当 它 确信 预测 是 正 的 
时 候 ， 则 仅 给 出 正 的 预测 ;除非 它 确信 预测 可 能 是 负 的 ， 否 则 可 以 给 出 正 的 预测 。 
通常 的 预测 介 于 两 者 之 间 。 

考察 独立 于 决策 的 预测 的 一 种 方法 是 考虑 下 述 基 于 预测 值 和 真实 值 的 4 种 指标 : 


实际 为 正 实际 为 负 
” ”预测 为 正 BEGÐ -~ 
预测 为 负 (BL fn) WH (en) 
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假定 tp 是 预测 为 正 且 实际 也 为 正 的 样本 个 数 ，fp 是 预测 为 正 而 实际 却 为 负 的 样 
APR, fn 是 预测 为 负 而 实际 却 为 正 的 样本 个 数 ，tn 是 预测 为 负 且 实际 也 为 负 的 


样本 个 数 。 HME (precision EXP 即 预 测 为 正 且 实际 也 为 正 的 样本 个 
ET PUNETI TERES A GS (recall) RA E Æ (true-positive rate) 定义 为 


TETA 即 预测 为 正 且 实际 也 为 正 的 样本 个 数 占 实际 为 正 的 样本 的 比例 。 假 正 率 


定义 为 产 荆 二， 即 预测 为 正 而 实际 为 负 的 样本 个 数 占 实 际 为 负 的 样本 的 比例 。 


Agent 应 该 尽力 最 大 化 精确 度 和 召回 率 、 最 小 化 假 正 率 ， 然 而 ， 这 些 目标 是 不 
相 容 的 。Agent 可 以 仅 通 过 预测 为 正 ( 如 果 它 确信 的 话 ) 来 最 大 化 精确 度 和 最 小 化 假 正 
率 , 但 是 这 样 做 降低 了 召回 率 。 反 之 ， 最 大 化 召回 率 的 预测 也 是 有 风险 的 ， 即 降低 
了 精确 度 和 增 大 了 假 正 率 。Agent 通常 具有 一 些 参 数 ， 它 们 通过 阐 值 的 变化 控制 何 
时 进行 为 正 的 预测 。 精 确 度 - 召 回 率 曲线 (precision-recall curve) 绘 制 了 当 这 些 参 数 变 
化 时 的 精确 度 与 召回 率 的 相对 变化 。ROC(receiver operating charateristic, 接收 者 操 
作 特 性 ) 曲 线 绘制 了 当 这 些 参数 变化 时 的 假 正 率 与 假 负 率 的 相对 变化 。 上 述 的 每 一 种 
方法 都 可 用 于 学 习 算 法 的 比较 ， 这 些 算法 并 不 依赖 于 Agent 的 真正 意志 。 

。 可 以 将 预测 看 成 是 Agent 的 一 个 行动 。Agent 应 该 选择 最 大 化 偏好 函数 的 行动 ， 

该 偏好 函数 需要 在 不 同行 动 所 关联 的 代价 之 间 进 行 折 中 。 行动 可 能 比 “ 真 ”或 “ 假 ” 
这 种 情况 更 为 复杂 ,例如 “谨慎 行事 ”或 “绝对 真实 ”"。 第 9 章 将 讨论 Agent 如 何 处 
理 不 确定 性 。 

【 例 7-4】 考虑 例 7-2 所 示 的 数据 ， 假 定 没 有 输入 特征 ， 则 所 有 样本 的 预测 值 是 一 样 的 。 

在 第 一 种 表示 方法 中 ， 在 训练 数据 上 最 小 化 绝对 误差 的 预测 值 是 2， 相 应 的 绝对 误差 
是 10。 而 最 小 化 平方 和 误差 与 最 坏 情 况 误差 的 预测 值 分 别 是 3. 2 和 3. 5。 

在 第 二 种 表示 方法 中 ， 在 训练 数据 上 最 小 化 绝对 误差 的 预测 值 是 Y; 二 0。 最 小 化 平方 
AIR MAY, =0.4, Y2=0.1, Y;=0. Y,=0, Y;=0,. Y;=0.4, 这 也 是 最 小 化 
HA EB ACU HE BS RE BY AR. Be) eR TL RR EH HM Ae Y =Y = 
Y;=0.5, Y;=Y,;=Y;=0. < 

因此 ,采用 哪 种 预测 依赖 于 如 何 评估 预测 。 


7.2.2 无 输入 特征 的 点 估计 


学 习 的 最 简单 情形 是 数据 没有 输入 特征 且 只 有 一 个 目标 特征 。 对 于 许多 学 习 算 法 来 
讲 ， 这 是 基准 情形 ， 相 当 于 忽略 了 所 有 的 输入 特征 。 在 这 种 情形 下 ， 学 习 算 法 对 于 所 有 的 
样本 均 给 出 单一 目标 特征 值 的 预测 。 最 小 化 误差 的 预测 依赖 于 采用 哪 种 误差 。 

假定 记 是 样本 集合 ,，Y 是 一 个 数值 特征 。Agent 能 做 的 事 就 是 对 所 有 样本 给 出 一 个 单一 
的 点 估计 值 。 注 意 ， 虽 然 Agent 进行 随机 预测 是 可 能 的 ， 但 这 样 做 并 非 更 好 ， 参 见习 题 7. 2. 

E Ei Wm (i v 的 平方 和 误差 是 

和 2 (ml (eY) — 0)? 


五 上 的 预测 值 为 v 的 绝对 误差 是 
>} |valle,Y) — v| 
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五 上 的 预测 值 为 ”的 最 坏 情 况 误差 是 

max | val(e.¥) — v| 

命题 7.1 假定 V 是 一 个 多 值 集 合 ， 和 集合 的 元 素 为 valle, Y), e€E. 

(a)E 上 的 最 小 化 平方 和 误差 的 预测 是 V 的 平均 值 。 

(DE 上 的 最 小 化 绝对 误差 的 预测 是 V 的 中 位 值 。 特 别 的 ， 对 于 最 小 化 误差 的 数字 v, 
V 中 小 于 vw 的 数值 个 数 与 大 于 vw 的 数值 个 数 相 等 。 

(OE 上 的 最 小 化 最 坏 情 况 误 差 的 预测 是 (maxr 十 min)/2， 其 中 max Fe min 分 别 是 V 
的 最 大 值 和 最 小 值 。 

证 明 : 详细 的 证 明 留 作 练习 ， 这 里 只 给 出 基本 的 证 明 思 路 。 

(a) 将 平方 和 误差 公式 对 于 vv 求 导数 并 设 为 0。 这 属于 初等 微 积分 的 内 容 。 为 了 确保 找 
到 最 小 值 ， 不 仅 需 要 检查 导数 为 0 的 点 ， 也 需要 检查 区 间 的 端点 。 

(b) 绝 对 误差 是 wv 的 分 段 线性 函数 。 不 属于 V 的 值 的 斜率 依赖 于 大 于 该 值 的 元 素 个 数 
与 小 于 该 值 的 元 素 个 数 的 差 : 如 果 大 于 闻 的 元 素 个 数 与 小 于 的 元 素 个 数 相 同 ， 则 o 是 使 
得 误差 最 小 值 化 的 一 个 预测 。 

(c) 这 个 预测 的 误差 是 (max 一 min)/2， 增 加 或 减少 预测 值 都 会 加 大 误差 。 a 

当 目 标 特 征 的 取 值 范围 为 {0，1}* 时 ,训练 样本 可 划分 为 : 值 为 0 的 样本 个 数 m 和 值 
为 1 的 样本 个 数 nl。 每 一 个 新 样本 的 预测 值 都 是 一 样 的 ， 记 为 po , 

最 优 预测 p 依赖 于 优化 的 标准 。 训 练 数 据 上 优化 标准 的 值 可 以 被 解析 地 计算 出 来 ， 结 
果 如 图 7-3 所 示 。 


预测 的 度量 训练 数据 上 预测 值 为 p hy E i 训练 数据 上 的 最 优 预 测 值 
绝对 误差 no pny (1—p) median(ng, nı) 


平方 和 误差 nip + ny A— p) + 
No Ty 
fi Mn, =0 上 es 


1 一 六 如 果 ny =0 1 如果 m=0 
0.5 其 他 


max(p, 1— p) fh 
似 然 性 ps (1—p) oa 


最 坏 情 况 误 差 


Ri ni logp—nolog(1—p) oe ey 





图 7-3 当 训 练 数据 由 mm 个 目标 特征 值 为 0 的 样本 和 zn 个 目标 特征 值 为 1 RAR OR A ARMED. 
4 n>n Wt, median(m, ni) WH 0; M no <m AY. median(m, m) Rh l; 当 nmn =n 时 ， 
median(m, m) A) WER ZELO, 1176 RAH ER 


注意 ， 优 化 绝对 误差 意味 着 预测 取 中 位 值 ， 由 于 误差 是 p 的 线性 函数 ， 所 以 这 并 不 令 
人 惊讶 。 

基于 其 他 优化 标准 的 预测 是 计算 经 验 频 率 (empirical frequency): 训练 数据 中 取 值 为 1 
的 样本 个 数 ， 即 二 卫 二 。 这 可 以 看 成 是 一 种 概率 (probability) 的 预测 。 经 验 频率 也 常 称 为 


a 
nı 





最 大 似 然 估计 (maximum-likelihood estimate) 。 

上 述 分 析 没 有 指定 测试 数据 上 的 最 优 预 测 值 。 我 们 不 能 指望 训练 数据 上 的 经 验 频率 就 
是 测试 数据 上 的 最 优 预 测 值 (该 预测 值 最 大 化 似 然 性 或 最 小 化 焙 )。 如 果 n= 0 R m = 0, 
则 所 有 训练 数据 都 归于 同一 个 类 别 。 然 而 ， 只 要 有 一 个 测试 样本 不 是 这 样 分 类 的 ， 则 似 然 


性 将 为 0( 最 小 的 可 能 值 );， 炉 将 为 无 限 大 。 详 见习 题 7. 1。 
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7.2.3 概率 学 习 


对 于 许多 用 于 预测 的 度量 来 说 ， 训 练 数据 上 的 最 优 预 测 是 经 验 闫 率 。 因 此 ， 进 行 点 估计 
可 以 解释 为 学 习 一 个 概率 。 然 而 ， 经 验 频率 通常 并 是 新 样 例 概 率 的 一 个 好 的 估计 ， 这 是 因为 
Agent 没有 观察 到 变量 的 值 并 不 意味 着 该 值 应 该 赋予 概率 0。 概 率 为 0 说 明 该 值 是 不 可 能 的 。 

通常 我 们 获得 数据 并 非 没 有 任何 先 验 知识 。 大 量 的 关于 诸如 符号 的 意义 、 类 似 样 例 的 
经 验 等 领域 的 先 验 知识 可 用 来 提高 预测 的 效果 。 

考虑 0 概率 问题 和 先 验 知 识 的 一 般 方法 是 利用 伪 计 数 (pseudocount) 或 先 验 计数 (prior 
count) 在 训练 数据 上 加 上 某 个 值 。 

假定 有 一 个 二 元 特征 Y，Agent 观察 到 有 n 个 Y==0 的 样 例 和 x 个 Y=1 的 样 例 。 
Agent 可 以 对 Y==0 和 Y==1 的 情况 分 别 使 用 伪 计 数 co 0 和 cc 宇 0， 此 时 概率 可 估计 为 

PCY = 1) = (m +) lm + 9 + +e) 
这 个 概率 同时 考虑 了 数据 和 先 验 知识 。 该 公式 在 具有 参数 先 验 知识 的 条 件 下 得 到 了 验证 
CHL 7. 8 节 )。 选 择 伪 计 数 是 设计 学 习 器 的 一 个 部 分 。 

更 一 般 的 ， 人 很 定 Y 的 取 值 范围 是 {y,，…，y}。Agent 对 每 个 yi WEDHA c: CN 
在 Agent 观察 到 数据 之 前 选 定 。 如 果 Agent 此 时 观察 到 一 些 训 练 样本 ， 且 ni 是 了 = 二 y; 的 
样本 个 数 ， 则 

为 了 确定 伪 计 数 ， 考 虑 这 样 一 个 问题 “已 经 观察 到 一 个 了 ==y 的 样 例 与 没有 观察 到 
这 样 的 样 例 相 比 ，Agent 信任 y 的 程度 提升 了 多 少 ?”。 如 果 没 有 观察 到 YY 二 y; 的 样 例 ， 
Agent 是 不 可 能 信任 y: 的 ， 因 此 ci 应 该 为 0; 否则 ， 上 述 问 题 的 答案 应 该 是 比例 值 (十 
c): ci。 由 此 可 以 看 出 : 若 伪 计数 取 1， 观 察 过 一 次 的 值 出 现 的 可 能 性 是 从 没 观察 过 的 值 
的 两 倍 ; 若 伪 计 数 取 10， 与 从 没 观察 过 的 值 相 比 ， 观 察 过 一 次 的 值 出 现 的 可 能 性 增加 了 
10%; 车 伪 计 数 取 0. 1， 观 察 过 一 次 的 值 出 现 的 可 能 性 是 从 没 观 察 过 的 值 的 11 倍 。 如 果 没 
有 理由 更 偏好 选择 Y 中 的 某 个 值 ， 所 有 的 伪 计 数 c; 应 取 同 样 的 值 。 

如 果 没 有 先 验 知识 ，Laplace[1812] 建 议 c; 取 1， 其 合理 性 的 说 明 参 见 7.8 节 。 然 而 ， 
我 们 也 将 会 磁 到 这 种 取 法 并 不 恰当 的 实例 。 

相同 的 思想 可 用 于 学 习 条 件 概 率 分 布 (econditional probability distribution ) 。 为 了 估计 
变量 YY 条件 依赖 于 变量 X 的 条 件 概率 分 布 P(Y|X)，Agent 可 以 为 每 一 对 Y 和 XX 的 值 维 
护 一 个 计数 。 假 定 一 个 非 负 的 值 cz RAF YS y AX=2; 的 伪 计数 ， 且 观察 到 的 满足 
Y=y; AX=z; 的 样 例 个 数 是 Nis 则 

POSEE = 2p 
但 当 分 母 很 小 的 时 候 ， 上 述 公 式 就 不 能 很 好 地 解决 问题 。 当 X 中 的 某 些 值 非常 稀少 的 时 
候 就 会 出 现 分 母 很 小 的 情形 ， 例如， 当 XX 具有 一 定 的 结构 (例如 由 其 他 变量 构成 )， 此 时 
在 训练 数据 中 经 常 出 现 X 的 某 些 赋值 非常 稀少 ， 甚 至 从 不 出 现 的 情形 。 在 这 种 情况 下 ， 
学 习 器 必须 采用 将 在 本 章 后 续 介绍 的 其 他 方法 。 

从 专家 那里 获得 概率 

伪 计 数 的 使 用 为 我 们 提供 了 一 种 结合 专家 观点 (expert opinion) 和 数据 的 方法 。Agent 
通常 没有 质量 很 好 的 数据 ， 但 可 能 有 咨询 多 位 专家 的 条 件 ， 这 些 专家 拥有 不 同 层次 的 专业 
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知识 并 可 给 出 不 同 的 概率 。 

从 专家 那里 获得 概率 面临 一 系列 的 问题 

。 专家 不 床 意 提供 一 个 准确 的 概率 值 ( 该 值 不 能 被 进一步 精 化 ) 。 

。 概率 估计 的 不 确定 性 的 表示 。 

。 组 合 不 同 专家 给 定 的 概率 值 。 

。 组 合 专家 观点 与 实际 数据 。 

与 期 望 专家 直接 给 出 概率 不 同 ， 专 家 可 以 提供 某 种 计数 值 。 不 是 给 定 一 个 诸如 0. 667 
那样 的 实数 作为 A 的 概率 ， 专 家 可 以 给 出 一 对 诸如 4z， 因 那样 的 数值 它 可 以 解释 为 专 
家 从 m 次 实验 中 观察 到 次 A 的 出 现 。 本 质 上 ， 专家 不 仅 给 出 了 一 个 概率 ， 而 且 给 定 了 
数据 集 ( 数 据 集 是 专家 观点 形成 的 基础 ) 大 小 的 一 个 估计 。 

通过 为 系统 增加 伪 计 数组 件 ， 我们 可 以 将 不 同 专 家 的 计数 组 合 在 一 起 。 鉴 于 比率 可 以 反 
映 概率 的 大 小 ， 其 绝对 值 可 以 用 于 表达 不 同 级 别 的 可 信和 度 :， (2，3) 表 达 了 问题 将 由 数据 或 专 
家 估计 所 支配 的 一 种 特别 低 的 可 信和 度 ; 20，30) 表 达 了 更 高 的 可 信 度 一 一 少量 样本 难以 改变 
UR, 但 是 几 十 个 样本 却 可 以 。 以 此 类 推 , 几 百 个 样本 对 先 验 计数 对 (2000，3 000) 产 生 不 了 
什么 影响 ; 然而 ， 在 面临 成 千 上 万 个 数据 点 的 时 候 ， 这 样 的 计数 对 对 结果 概率 影响 其 微 。 


7.3 有 监督 学 习 的 基本 模型 


学 习 最 终 获得 的 模型 是 从 输入 特征 到 目标 特征 的 一 种 函数 表示 。 大 多 数 有 监督 学 习 方 
法 接收 输入 特征 、 目 标 特征 和 训练 数据 ， 返 回 能 用 作 未 来 预测 的 模型 。 许 多 学 习 方 法 的 区 
别 在 于 采用 什么 方式 表示 函数 。 本 节 我 们 首先 介绍 一 些 基本 的 学 习 模 型 ， 它 们 可 组 合成 更 
复杂 的 模型 。7. 4 节 介 绍 由 基本 模型 组 成 的 复杂 学 习 模 型 。 


7.3.1 决策 树 学 习 


决策 树 是 对 样 例 进行 分 类 的 一 种 简单 表示 形式 。 在 有 监督 分 类 学 习 中 ， 决 策 树 学 习 是 
最 成 功 的 技术 之 一 。 在 本 节 中 ， 假定 所 有 的 特征 都 取 有 限 的 离散 值 ， 且 仅 有 一 个 称 为 类 别 
(classification) 的 目标 特征 。 类 别 的 每 一 个 元 素 称 为 类 (class)。 

决策 树 (decision tree) 或 分 类 树 (classification tree) 是 一 棵 树 ， 其 中 ， 每 一 个 内 部 ( 非 叶 
子 ) 节 点 都 用 一 个 输入 特征 进行 标记 ; MAARTE S| EK a TK AE TE 
值 进行 标记 ; 树 的 每 个 叶子 节点 用 类 或 类 上 的 概率 分 布 进行 标记 。 

当 对 一 个 样 例 进 行 分 类 时 ， 从 树 的 根 节 点 开始 从 上 往 下 进行 过 滤 ( 或 匹配 ) : 对 于 树 上 
遇 到 的 每 个 特征 ， 沿 着 该 特征 在 样 例 上 的 值 所 对 应 的 弧 往 下 走 。 当 到 达 一 个 叶子 节点 时 ， 
返回 该 叶子 节点 所 对 应 的 类 。 

(Gi 7-5] 图 7-4 显示 了 两 棵 可 能 DR 
的 决策 树 ， 它 们 基于 图 7-1 所 示 的 样 例 。 
两 棵 决策 树 都 可 根据 用 户 的 行为 对 样 例 
进行 分 类 。 当 使 用 左边 的 决策 树 时 ， 首 
先 确定 特征 Length 的 值 ， 如 果 是 long, 
则 预测 值 为 skips; 否则 检查 特征 
Thread 的 值 ， 如 果 是 new， 则 预测 和 值 为 
reads; 否则 检查 特征 Author 的 值 ， 仅 7-4 ”两 棵 决策 树 





Skips reads 概 率 0.82 
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当 为 known 的 时 候 才 预测 为 reaas。 这 棵 决策 树 能 够 正确 分 类 如 图 7-1 所 示 的 所 有 样 例 。 
右边 的 决策 树 当 特征 Length 的 值 是 short 的 时 候 进 行 概率 预测 。 在 这 种 情况 下 ， 预 测 


为 reads 和 skips 的 概率 分 别 是 0. 82 和 0.18. 


< 


一 棵 确定 的 决策 树 ( 其 中 所 有 的 叶子 节点 均 代表 类 ) 可 以 被 映射 为 一 个 规则 的 集合 ， 每 
一 个 叶子 节点 对 应 一 条 规则 。 如 果 从 根 节 点 到 某 个 叶子 节点 的 路 径 所 包含 的 条 件 均 为 真 ， 


则 样 例 具 有 该 叶子 节点 所 代表 的 类 。 
【 例 7-6) 
skips = long 
reads <— short \\ new 
reads <— short 人 followUp NA known 
skips < short A followUp 入 unknown 


图 7-4 左边 所 示 的 决策 树 可 用 下 述 规则 进行 表示 : 


如 果 把 规则 的 否定 看 成 是 失败 的 ， 则 可 以 忽略 结果 是 skips M reads 的 规则 ， 其 他 规则 可 


以 从 反面 推理 得 到 。 


< 


使 用 决策 树 作 为 目标 的 表示 形式 存在 如 下 一 些 问题 : 
。 给 定 一 些 训练 样本 ， 应 该 生成 什么 样 的 决策 树 ?” 由 于 决策 树 能 够 表示 输入 特征 的 


任意 函数 ， 可 以 在 偏好 选择 特定 决策 树 的 时 候 考 虑 学 习 的 偏 置 问题 。 一 个 建议 是 


选择 与 数据 匹配 的 最 小 的 决策 树 ， 
这 意味 着 树 的 深度 最 浅 或 树 的 节点 
最 少 。 哪 一 棵 决策 树 是 还 未 观察 到 
的 数据 的 最 好 预测 者 是 一 个 经 验方 
面 的 问题 。 
。 Agent 如 何 处 理 建 立 一 棵 决策 树 的 
问题 ? 一 种 方法 是 在 决策 树 空 间 中 
搜索 适合 数据 的 最 小 决策 树 。 不 幸 
的 是 ， 决 策 树 空间 是 非常 巨大 的 
(见习 题 7.7)。 一 种 实用 的 解决 办 
法 是 在 决策 树 空 间 中 进行 局 部 搜 
R. 目标 是 最 小 化 误差 。 这 就 是 下 
述 所 描述 的 算法 的 思想 。 
搜索 一 棵 好 的 决策 树 
可 以 采用 自 顶 向 下 的 方式 增 量 地 构建 
一 棵 决策 树 ， 它 通过 递归 地 选择 一 个 特征 
进行 分 裂 ， 并 依据 该 特征 的 值 划 分 训练 样 
本 。 如 图 7-5 所 示 ， 过 程 DecisionTreeL- 
earner 对 二 元 属性 (特征 ) 学 习 一 棵 决策 树 。 
该 过 程 并 未 考虑 关于 何 时 停止 和 选择 什么 
特征 进行 分 裂 的 问题 。 过 程 DecisionTre- 
eClassify 接收 由 DecisionTreeLearner 产 
生 的 决策 树 和 对 新 样本 进行 预测 。 
算法 DecisionTreeLearner 采用 自 顶 向 
下 的 方式 构建 一 棵 决策 树 ， 具 体 过 程 如 下 : 
算法 的 输入 是 输入 特征 的 集合 、 目 标 特征 











1; procedure DecisionTreeLearner(X, Y, E) 

2; Inputs 

3; X: 输入 特征 的 集合 ， X={X,, s+, X,} 
4; Y: 目标 特征 

5: Ex 训练 样本 集 

6: Output 


T: 决策 树 

8: ”这 满足 停止 条 件 then 

9; return poinEstimate(Y, E) 

10; else 

11l: 选择 特征 XEK, HRA {vs ve} 

12; 4 E, ={e€E: valle, X) =v} 

13; 4> T, = DecisionTreeLearner CK \ {X,;}, Y, E) 
14; 4 E,={eEE; valle, X) =u} 

15; 4> T, = DecisionTreeLearner (X \ (X;}, Y, Ex) 
16: returni X; =v» Tis Ti?) 


18; procedure DecisionTreeClassify(e, X, Y, DT) 
19; Inputs 
20: X: 输入 特征 的 集合 ，X={Xy，**， 尺 ,} 


24; Output 
25; 样 例 e 的 y 值 预测 


Local 
27; S 是 DT 的 子 树 
28: S:=DT 


29; while S 是 一 个 内 部 节点 且 具 有 形式 (X= 二 vi， 
T,>do 

30; if valle, X,)=v then 

31; S$; =T; 

32 else 

33: S; =f 


34; return § 


图 7-5 对 于 二 元 特征 的 决策 树 学 习 与 分 类 





298 


300 


198 第 三 部 分 学习 与 规划 


和 样本 集 。 学 习 器 首先 测试 是 否 满足 停止 条 件 ， 如 果 满 足 就 返回 工 的 一 个 点 估计 ， 这 个 点 
估计 要 么 是 工 的 一 个 值 ， 要 人 么 是 了 取 值 的 一 个 概率 分 布 。 如 果 不 满 足 停止 条 件 ， 学 习 器 
就 选择 一 个 特征 X; 进行 分 裂 ， 对 于 该 特征 的 每 一 个 值 v， 学 习 器 为 X= 二 vo 的 所 有 样本 递 
归 地 构建 一 棵 子 树 。 最 终 得 到 的 树 用 if-then-else 这 种 三 元 组 的 形式 进行 表示 。 

【 例 7-7】 考虑 在 如 图 7-1 所 示 的 分 类 数据 上 执行 DecisionTreeLearner 过 程 。 初 始 调 
用 为 

decisionTreeLearner ([ Author , Thread ,Length ,WhereRead |,UserAction,[e,, oves]) 
假定 停止 条 件 不 为 真 并 选择 特征 Length 作 分 裂 ， 则 调用 

decisionTreeLearner (|WhereRead , Thread , Author |,UserAction se, se, se, ves ses seise I) 
此 时 所 有 的 样本 在 用 户 的 行为 上 取得 了 一 致 ( 即 UserAction 取 相 同 的 值 一 一 译 者 注 )， 因 此 
算法 返回 预测 值 skips。 第 二 步 递归 调用 是 

decisionTreeLearner ([ WhereRead, Thread, Author |, UserAction, 

snp ya TOI 7 Cis wel tO tia Gers Cig | 

此 时 并 非 所 有 的 样本 在 用 户 的 行为 上 取得 了 一 致 ， 因 此 算法 再 选择 一 个 特征 作 分 裂 ， 假 定 
选择 的 特征 是 Thread, 最 后 ， 递 归 过 程 返回 Length 为 short HFM. Win 


(Thread = new, reads ,( Author = unknown» skips, reads) ) 





最 终 的 结果 是 
(Length = long sskips, Thread = new, reads ,( Author = unknown, skips. reads))) 
这 是 如 图 7-4 所 示 的 树 的 一 种 表示 形式 。 < 


如 图 7-5 所 示 的 学 习 算法 有 三 个 问题 没有 说 明 : 

。 算法 停止 的 条 件 。 这 些 条 件 包 括 : 没有 输入 特征 、 所 有 和 样本 具有 相同 的 分 类 ， 或 
者 是 不 存在 能 够 提升 树 的 分 类 能 力 的 特征 分 裂 。 最 后 一 种 条 件 是 最 难 进 行 测 试 的 ， 
如 下 所 述 。 

。 叶子 节点 应 返回 什么 。 这 是 一 个 点 估计 问题 ， 因 为 这 个 步骤 忽略 了 所 有 的 其 他 输 
和 特征。 预测 值 通常 包括 : 最 有 可 能 的 分 类 、 中 位 数 或 平均 值 、 类 的 概率 分 布 ( 见 
习题 7. 9) 。 

。 选择 哪个 特征 进行 分 裂 。 目 标 是 选择 这 样 的 特征 ， 它 能 够 获得 最 小 的 决策 树 。 一 

般 的 方法 是 选择 目前 看 来 是 最 优 的 特征 ( 即 贪心 算法 一 一 译 者 注 ) 作 分 裂 : 如 果 学 
习 器 仅 人 允许 一 次 分 裂 ， 哪 种 分 裂 能 获得 最 优 的 分 类 ? 如 果 采 用 平方 和 误差 准则 ， 
则 对 于 每 一 个 特征 确定 基于 该 特征 的 分 裂 得 到 的 树 的 误差 。 如 果 采 用 似 然 性 或 焙 
的 准则 ,， 则 目前 最 优 的 分 裂 是 能 够 获得 最 大 信息 增益 (information gain) 的 分 裂 。 
信息 增益 有 时 也 在 采用 平方 和 误差 准则 的 情形 下 获得 应 用 。 习 题 7. 10 研究 了 基于 
Gini 指数 (Gini index) 的 方法 。 

【 例 7-8】 考虑 从 如 图 7-1 所 示 的 数据 上 学 习 用 户 的 行为 ,我 们 选取 特征 进行 分 裂 ， 
该 特征 具有 最 大 信息 增益 或 最 小 化 人 或 最 大 似 然 性 。 信 息 的 定义 可 参见 6.1.5 节 。 

所 有 样本 关于 特征 UserAction 的 信息 量 是 1.0， 因 为 UserAction =reads 和 UserAc- 
tion=skips 的 样本 个 数 相同 ， 均 为 9 个 。 

分 裂 特 征 Author 将 样本 分 为 Author = known 的 集合 Lei， ess ess Crs Cys Cos Eiz» 
eias eiss eiss Cres e |] 和 Author=unknown 的 集合 Le:，e3， ers ess ens et]， 每 一 个 集 
合 均 被 不 同 的 用 户 行 为 所 平分 ( 即 UserAction = reads 和 UserAction = skips 的 样本 个 数 相 
同 )， 所 以 特征 Author 的 信息 增益 为 0。 在 这 种 情形 下 ， 知 道 Author 的 值 并 不 能 提供 关于 
用 户 行为 的 任何 信息 。 
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分 裂 特 征 Thread 将 样本 分 为 [ei， Coy Oss Egy Cige izy C149 Eiss ên» eie | 和 [es， Cys 
ess C79 Coy Crs En» C16]。 第 一 个 集合 (Thread 二 new) 包 含 3 个 UserAction = skips 的 样 
本 和 7 个 UserAction=reads 的 样本 ， 因 此 关于 用 户 行 为 的 信息 量 为 

— 0.3 X log, 0. 3 — 0. 7 X log, 0. 7 = 0. 881 
信息 增益 则 为 0. 119 。 

WH, Thread=old 的 样本 数 根据 用 户 的 行为 可 划分 为 6: 2 的 比例 ， 信 息 量 是 
0. 811。 因 此 搬 望 的 信息 增益 是 1.0 一 [(10/18)X0. 881 十 (8/18)X0.811]==0. 150, 

分 裂 特 征 Length 将 样本 分 为 Lel， C31 Cys Egs Cos Ejo» én | Alle. Cys O79 Ess Eis 
las Cigs Cigs Eiss Caz eise 前 者 在 UserAction 上 的 值 相同 ， 国 而 信息 量 为 0。 用 户 行 为 
将 第 二 个 集合 划分 为 6: 2 的 比例 ， 信 息 量 是 0.684。 因 此 ， 期 望 的 信息 增益 是 1.0 一 11/ 
18X0. 684=0. 582。 这 是 所 有 特征 中 最 高 的 信息 增益 ， 所 以 选择 特征 Length (ERR. 

关于 选择 哪个 特征 作 分 裂 ， 在 测试 之 前 所 有 的 特征 的 信息 量 是 一 样 的 ， 因 而 学 习 
Agent 可 以 选择 这 样 的 特征 ， 它 在 测试 之 后 的 信息 需求 最 小 。 < 

如 图 7-5 所 示 的 算法 假定 每 个 特征 仅 有 两 种 值 。 可 以 通过 下 述 方法 放松 这 种 限制 ; 

。 人 允许 多 路 分 裂 。 分 裂 多 值 变 量 导致 值 域 中 的 每 一 个 值 均 对 应 着 一 棵 子 树 。 与 简单 

的 用 于 二 元 特征 的 if-then-else 形式 相 比 ， 这 意味 着 决策 树 的 表示 变 得 更 为 复杂 。 
这 里 有 两 个 问题 需要 考虑 。 第 一 个 是 怎样 处 理 没 有 训练 样本 的 特征 值 。 第 三 个 是 
对 于 大 多 数 的 贪心 分 裂 启 发 式 规则 (包括 信息 增益 ) 来 讲 ， 在 具有 更 多 值 的 变量 上 
作 分 裂 效 果 往 往 更 好 。 原 因 是 ， 与 具有 较 少 值 个 数 的 特征 相 比 ， 它 能 产生 更 多 的 
子 树 以 便 与 数据 匹配 (见习 题 7. 8) 。 然 而 ， 在 具有 较 少 值 个 数 的 特征 上 作 分 裂 能 使 
得 表示 更 为 简洁 。 

。 将 值 焉 划分 为 两 个 不 相交 的 子 集 。 当 值 域 是 全 序 的 (例如 是 实数 集 的 子 集 )， 可 以 
根据 某 个 冰 值 将 值 域 划分 为 小 于 该 冰 值 和 大 于 该 六 值 的 两 个 子 集 。 例 如 ， 根 据 习 
值 域 中 的 某 个 值 z， 可 以 得 到 AXo 的 子 树 和 和 之 ”的 子 树 。 的 目前 最 优 值 的 选 
择 可 以 这 样 来 实现 : 首先 根据 X 值 的 大 小 进行 排序 ， 然 后 考察 依据 各 个 值 划 分 的 
效果 。 当 值 域 不 存在 一 个 自然 的 排序 关系 时 ， 可 以 在 值 域 的 子 集 上 进行 任意 划分 。 
在 这 种 情形 下 ， 目 前 最 优 的 划分 可 以 通过 数据 基于 类 别 概率 的 排序 来 找到 。 

如 果 数 据 中 存在 噪声 ， 上 述 算法 的 一 个 主要 问题 是 过 拟 合 (overfitting)。 当 算法 试图 
匹配 出 现在 训练 数据 中 的 某 些 特性 (还 未 出 现 的 样本 并 不 具有 这 样 的 特性 ) 时 产生 了 过 拟 
合 。 换 句 话 说 ， 存 在 于 训练 数据 中 的 随机 关系 并 不 反映 数据 集 的 整体 关系 时 会 产生 过 拟 
合 。7. 5 节 会 讨论 检测 过 拟 合 的 方法 。 存 在 两 种 解决 决策 树 中 过 拟 合 问题 的 方法 : 

。 限制 分 裂 操作 ， 即 仅 当 分 裂 特征 确实 有 用 时 才 进 行 分 裂 。 

。 允许 不 受 限 制 的 分 裂 ， 但 对 最 终 的 决策 树 ( 该 决策 树 包 含 一 些 无 根据 的 特性 ) 进 行 

WR. 

在 实践 中 ， 第 二 种 方法 的 效果 更 好 。 一 个 原因 是 存在 这 样 的 情况 : 两 个 特征 一 起 可 以 
预测 得 很 好 ， 但 单独 的 一 个 特征 并 不 十 分 有 效 。 这 可 以 从 下 面 的 例子 中 看 出 。 

[617-9] 假定 我 们 的 目标 是 预测 匹配 便士 博弈 的 赢 或 输 。 输 入 特征 有 三 个 : A. BA 
C，A 代表 第 一 枚 硬币 的 正面 或 反面 ，B 代表 第 二 枚 硬币 的 正面 或 反面 ，C 代表 是 否 有 了 蝎 
彩 。 当 两 枚 硬币 均 为 正面 (或 反面 ) 时 ， 目 标 特征 克 为 真 ( 即 为 赢 )。 此 外 ， 假 定 有 喝彩 也 
说 明 赢 了 。 这 个 例子 设计 得 颇 为 巧妙 ， 因 为 A 或 B 单独 均 无 法 提供 有 关 W 取 值 的 任何 信 
息 ,可 是 A 和 B 一 起 却 可 以 准确 地 预测 W 的 值 。 一 种 可 能 的 分 裂 方 法 是 首先 选择 特征 C 
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进行 分 裂 ， 因 为 它 提供 最 大 的 信息 量 。 如 果 所 有 的 Agent 均 被 告知 选择 C， 这 样 做 比 选择 

A 或 B 更 有 效 。 然 而 ， 如 果 最 终 选 择 了 A 和 B 进行 分 裂 ， 则 在 C 上 的 分 裂 是 不 必要 的 。 

剪 枝 操作 可 能 删除 C， 即 使 它 是 有 用 的 ; 而 算法 提前 结束 将 会 选择 C 上 的 分 裂 。 < 
关于 如 何在 模型 复杂 性 与 数据 匹配 之 间 进行 折 中 的 问题 将 在 7. 5 节 进 行 讨论 。 


7.3.2 线性 回归 与 分 类 


线性 函数 是 许多 学 习 算 法 的 基础 。 本 节 首 先 讨 论 回归 一 一 从 训练 数据 预测 实 值 函 数 的 
问题 ， 然 后 讨论 分 类 问题 (目标 特征 取 离 散 值 ) 。 

线性 回归 (linear regressioa) 指 的 是 寻找 一 个 线性 函数 去 拟 合 训练 样本 集 的 输入 -输出 
对 ， 其 中 输入 特征 和 和 输出 特征 均 为 数值 型 。 

假定 输入 特征 是 Xi ，…，X,， 则 线性 函数 (linear function) 的 形式 为 

FE CXK ss Xn) = wo Hur X X, ++ + w, X Xa 
其 中 五 三 过 zw， wn RAMA. WEG wo 不 显得 那么 特殊 ， 可 以 引入 一 个 
新 的 特征 Xu， 它 的 值 总 是 1。 : 

我 们 将 为 每 一 个 目标 特征 独立 地 学 习 一 个 函数 ， 这 里 考虑 仅 有 一 个 目标 特征 Y 的 情 
形 。 假 定 存 在 一 个 样本 集 五 ， 其 中 每 个 样本 ceEE ERIE X, EEH valle, X), HAH 
特征 上 的 观察 值 为 val(e，Y)， 则 目标 特征 的 预测 值 是 


poal? (es¥) = w +w, X wl(e,X,) +++ Hw, X alle, X,) = X w: X walle, X) 
i=ù 


其 中 我 们 显 式 地 表达 预测 是 依赖 于 权 值 的 ， 且 valle, X,)=1. 
在 样本 集 巨 上 目标 特征 Y 的 平方 和 误差 是 


Errors (©) = 》 (wl(erY) — pual® (e,¥))? = > (talle, Y) — Jw, X wile, XD) (7.1) 
EE EE i=0 


在 这 种 线性 的 情形 下 ， 可 以 解析 地 计算 出 最 小 化 误差 的 权 值 (见习 题 7.5)。 更 一 般 的 
方法 (适用 于 更 广泛 的 函数 类 型 ) 是 迭代 地 计算 权 值 。 
梯度 下 降 就 是 一 种 寻找 函数 最 小 值 的 迁 代 方法 。 它 首先 设 定 初始 的 权 值 ; 然后 在 每 一 


次 迭代 中 都 减少 权 值 O 减 少 的 量 与 其 偏 导 数 成 比例 ); 


OErrors (wW) 
ow, 


其 中 梯度 下 降 的 步 长 jy 称 为 学 习 率 (learning rate)。 学 习 率 、 特 征 以 及 数据 都 属于 学 
习 算 法 的 输入 部 分 。 偏 导数 指定 权 值 的 改变 如 何 影响 误差 的 改变 。 

考虑 最 小 化 平方 和 误差 ， 它 是 样本 集 上 的 误差 之 和 。 由 于 和 的 偏 导 数 等 于 偏 导 数 之 
和 ， 所 以 可 以 单独 考虑 每 一 个 样本 及 其 对 权 值 改变 的 影响 。 样 本 e 的 误差 对 于 权 值 w 的 
偏 导 数 是 一 2X [val(e, Y)— pual®(e, Y)]X valle; X). WFR-THA ec, 设 65= 
valle, Y)—pval®(e, Y)。 由 此 可 得 样本 e BHM w: HAR: 

wy: = w; + 9X dX wl le, X) (7. 2) 
上 式 中 我 们 忽略 了 常数 2， 因为 它 可 以 被 常数 合并 。 

图 7-6 给 出 了 一 个 名 为 LinearLearner( X, -Y, E, PRAW. 它 学 习 一 个 最 小 化 平方 
和 误差 的 线性 函数 。 注 意 在 第 17 行 ， 对 于 所 有 的 e， val(e，X。) 二 1。 算 法 的 终止 条 件 通 
常 包括 : 达到 给 定 的 迭代 次 数 、 误 差 足 够 小 或 值 的 改变 足够 小 。 


ws = Wh — WX 
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1; procedure LinearLearner(X, Y, E, 9) 
Inputs 
3; X: MAREWRE, X=(X, -, 
Y: 目标 特征 
E: 用 于 学 习 的 样本 集 
7: 学 习 率 
Output 
参数 wy» s w 
Local 
Woy s Whys 实数 
pral™(e, Y)=wytw,+valle, X,)++++w,X valle, X,) 
随机 初始 化 woe vs w, 


repeat 
for 王 中 的 每 一 个 样本 e do 
6: =valle, Y)—pval*(e, Y) 
for 每 一 个 i€[0, n]do 
wi: wt yOXval(le, X,) 
until 终止 


return zi ts W, 





图 7-6 采用 梯度 下 降 法 学 习 一 个 线性 函数 


上 述 算 法 有 时 也 称 为 增 量 梯度 下 降 (incremental gradient descent)， 因 为 它 通 过 每 一 个 
样本 的 迭代 来 改变 权 值 。 另 一 种 可 行 的 方法 是 : 首先 在 每 次 循环 迭代 中 保存 权 值 ， 然 后 利 
用 这 些 权 值 计算 函数 值 ， 最 后 在 所 有 的 样本 都 处 理 完毕 后 更 新 权 值 。 这 个 过 程 计 算 误差 函 
数 的 真正 导数 ， 但 是 它 更 为 复杂 有 旦 效果 通常 没有 增 量 梯度 下 降 法 好 。 

上 述 算法 同样 适用 于 其 他 误差 函数 。 对 于 绝对 误差 来 讲 ， 它 在 0 点 并 非 真 正 可 微 , 但 在 
该 点 的 导数 可 定义 为 0， 因 为 此 时 误差 已 经 达到 最 小 ， 参 数 也 已 经 无 须 改变 。 见 习题 7. 12。 

扁 线性 函数 

对 于 分 类 任务 来 讲 ， 线 性 函数 的 效果 并 不 好 。 当 仅 存 在 二 值 ( 即 0 和 1 时， 学 习 器 应 
该 决 不 会 给 出 大 于 工 或 小 于 0 的 预测 值 。 可 是 为 了 更 好 地 匹配 其 他 样本 ， 线 性 函数 可 能 为 
某 个 样本 给 出 值 为 3 的 预测 。 

我 们 首先 考虑 二 分 类 ， 其 目标 变量 的 值 域 是 {0，1+。 如 果 存 在 多 重 二 元 目标 变量 ， 它 
们 可 以 单独 地 被 学 习 。 

对 于 分 类 问题 ， 我 们 经 常 使 用 一 个 扁 线 性 函数 (squashed linear function) ; 

FRI R= fC Fw KR XX.) 
子 也 称 为 激活 函数 (activation function), 它 将 实数 映射 到 LO，1]。 利 用 扁 线 性 函数 预测 目 
标 特征 的 值 ， 可 以 得 到 样本 在 目标 特征 Y 上 的 预测 值 : | 

poal® (esY) = flws Hwi X talle, Ki} + w, X wal (es X,)) 

一 种 简单 的 激活 函数 是 阶 跃 函数 (step function) f(z), 定义 为 


1 m0 
fa) = | 
0 «<0 


阶 跃 函数 是 感知 器 (perceptron)[Rosenblatt，1958] 的 基础 ， 感 知 器 是 最 早 提出 的 学 习 算 法 
之 一 。 为 阶 牙 函数 应 用 梯度 下 降 法 是 困难 的 ， 因 为 梯度 下 降 需要 导数 而 阶 牙 函数 是 不 可 
微 的 。 

如 果 激 活 函 数 是 可 微 的 ， 则 可 以 利用 梯度 下 降 法 更 新 权 值 。 平 方 和 误差 是 

Errors ©) = >} (ml(e,¥) — f( Dw X walle, X:)) Y 


306 


307 
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对 于 样本 e 而 言 ， 该 误差 关于 权 值 w 的 偏 导 数 是 
OErrore (wW) 
Ow, 


其 中 6 二 val(e， Y)—pval*(e, Y), AIDE, HR e BHR w: 的 公式 如 下 : 
wW: = w tH XE X f(D X wal le, Xi) )X wl le, X;) 
一 种 典型 的 可 微 的 激活 函数 是 sigmoid BÈ logistic 函数 : 
f(z) = 


=—2x8x f (Dw X walle, X:))X wille,X;) 


1 
Ite" 
该 函数 的 图 像 如 图 7-7 所 示 ， 它 将 实 值 线 挤 压 到 区 间 (0，1)。logistic 函数 适用 于 分 类 问 
题 ， 因 为 我 们 不 想 给 出 值 大 于 1 或 小 于 0 的 预测 。 它 同时 也 是 可 微 的 且 导 数 仅 由 输出 值 决 
s M 天 (xz)= FOXA fz). 


=10 S 0 5 10 
fA 7-7 sigmoid 或 logistic 函数 

可 以 将 如 图 7-6 所 示 的 算法 LinearLearner 作 一 些 改变 ， 以 利用 sigmoid mR. 这 可 
以 通过 将 算法 的 第 17 行 蔡 换 为 下 式 来 实现 : 

w: = wm tqx eX pval™(e,Y) X [1 — poal®(e,Y) | X wil (e,X;) 
其 中 pual* (esY) = f(D) wi X walle, X:)) 是 样本 e 的 目标 特征 了 的 预测 值 。 

【 例 7-10〗 考虑 学 习 一 个 扁 线性 函数 ， 目 标 是 对 如 图 7-1 所 示 的 数据 进行 分 类 。 能 正 
确 分 类 这 些 样 本 的 一 个 函数 是 

Reads = f(—8+7 X Short +3 X New +3 X Known) 
其 中 了 是 sigmoid 函数 。 通 过 大 约 3 000 次 的 梯度 下 降 迁 代 ( 学 习 率 ?一 0.05) 可 以 找到 类 似 
上 式 的 函数 。 根 据 这 个 函数 ，Reads 为 真 ( 与 0 相 比 ， 预 测 值 更 接近 1). 4AM4 Short 
AHA New 或 Known 为 真 。 因 此 ， 这 个 线性 分 类 器 学 到 的 函数 与 决策 树 是 一 样 的 。 上 述 
工作 的 细节 可 参考 AlIspace. org 网 站 上 神经 网 络 中 的 “mail reading”Java 小 程序 。 a 

采用 sigmoid 函数 作为 激活 函数 的 算法 可 以 处 理 任意 线性 可 分 的 分 类 问题 。 换 句 话 
说 ， 在 任意 样本 集 上 的 学 习 误 差 可 以 任意 小 ， 当 和 且 仅 当 目 标 分 类 是 线性 可 分 的 。 一 个 分 类 
是 线性 可 分 Clinearly separable) 的 ， 指 的 是 存在 一 个 超 平面 使 得 在 该 超 平面 的 一 侧 类 别 为 
E, 另 一 侧 为 假 。 超 平面 定义 为 预测 值 ， TR rary Xa )= f Cay Hw X valle, X,) ++: "十 
w, Xval(e, X,)), Æ 0.5 的 那个 平面 。 对 于 sigmoid MEIDEN EOE w 
满足 two 十 wi X valles, X,) +: +w, X valle, 
X, =0 时 得 到 该 超 平面 。 在 该 超 平面 的 一 侧 ， 
预测 值 大 于 0. 5， 而 在 另 一 侧 则 小 于 0. 5。 

图 7-8 给 出 了 or 和 and MAEDA. 
划 线 将 正 ( 真 ) 类 和 负 ( 假 ) 类 分 开 。 一 种 简单 的 图 7-8 布尔 函数 的 线性 分 类 器 
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线性 不 可 分 函数 是 异 或 (xor) 函 数 ( 见 图 的 右边 )， 此 时 不 存在 将 正 类 样本 和 和 抽 类 样本 分 开 
. 的 直线 。 因 此 ， 线 性 分 类 器 无 法 表示 和 学 习 异 或 函数 。 

通常 先 验 地 确定 一 个 数据 集 是 否 线性 可 分 是 困难 的 。 

【 例 7-11) 考虑 如 图 7-9 所 示 的 数据 集 ， 它 用 于 预测 某 人 是 否 喜欢 去 度假 ， 这 取决 于 
下 面 这 些 因素 :是 否 有 文化 积淀 ? 是 否 必须 坐 飞机 ? 目的 地 的 天 气 很 热 吗 ? 有 音乐 吗 ? 是 
否 有 自然 景观 ?在 该 数据 集中 ，1 表示 真 ，0 表示 假 。 线性 分 类 器 要 求 用 数值 表示 的 形式 

经 过 10 000 次 的 梯度 下 降 迭 代 ( 学 习 率 取 
0.05) 之 后 ， 最 优 的 预测 函数 为 (保留 一 位 小 数 ): 

Likes = f(2.3 X Culture +0. 01 X Fly — 9.1 X Hot 

— 4.5 X Music 4-6. 8 X Nature + 0.01) 

除了 最 后 和 倒数 第 三 个 样本 ， 该 函数 近似 地 预测 
了 训练 集中 所 有 样本 的 目标 值 。 最 后 和 倒数 第 三 
个 样本 的 预测 值 约 为 0.5。 这 个 函数 对 于 不 同 的 
初始 化 值 显 得 十 分 稳定 。 增 加 迭代 的 次 数 使 得 预 
测 其 他 样本 更 为 准确 。 4 

当 目 标 变 量 的 取 值 个 数 大 于 2( 即 多 分 类 间 
题 )， 可 以 利用 指示 变量 将 多 分 类 问题 转化 为 二 
分 类 问题 。 这 些 二 分 类 问题 可 以 单独 地 被 学 习 。 
然而 ， 必 须 将 这 些 单独 的 分 类 器 组 合 起 来 预测 目 
标 变量 的 值 。 由 于 对 于 每 一 个 样本 来 说 必须 恰好 
有 一 个 值 为 真 ， 所 以 学 习 器 不 能 将 多 个 值 预测 为 真 
或 者 没有 一 个 值 为 真 。 预 测 值 为 概率 分 布 的 分 类 器 ”图 79 关于 某 人 喜欢 去 哪里 度假 的 训练 数据 
可 以 将 多 个 单独 的 预测 加 以 标准 化 。 必 须 给 出 确定 性 预测 的 学 习 器 可 以 采用 上 述 模型 。 


7.3.3 贝 叶 斯 分 类 器 


贝 叶 斯 分 类 器 (Bayesian classifier) 基 于 这 样 的 思想 : 一 个 (自然 ) 类 的 作用 是 预测 该 类 
成 员 的 特征 值 。 样 本 组 成 类 是 因为 它们 具有 相同 的 特征 值 ， 这 样 的 类 往往 称 为 自然 类 
(natural kind) 。 在 本 节 中 ， 目 标 特征 对 应 于 取 离 散 值 的 类 别 ， 且 该 类 别 并 不 一 定 是 二 分 
类 的 。 

WR Agent 知道 了 类 别 ， 它 就 能 预测 其 他 特征 的 值 一 一 这 是 贝 叶 斯 分 类 器 的 基本 思 
想 。 如 果 Agent 不 知道 类 别 ， 那 么 在 给 定 一 些 特征 值 的 前 提 下 ， 贝 叶 斯 规则 可 用 于 预测 类 
别 。 在 贝 叶 斯 分 类 器 中 ， 学 习 Agent 首先 建立 一 个 特征 的 概率 模型 ， 然 后 利用 该 模型 预测 
新 样本 的 类 别 。 

潜在 变量 指 的 是 未 被 观察 到 的 概率 变量 。 贝 叶 斯 分 类 器 是 一 种 概率 模型 ， 其 中 的 类 别 
是 与 观察 到 的 变量 概率 相关 的 潜在 变量 。 分 类 因而 转化 成 概率 模型 中 的 推理 。 

最 简单 的 形式 是 朴素 贝 叶 斯 分 类 器 ， 它 基于 独立 性 假设 : 在 给 定 类 别 的 前 提 下 ， 输入 
特征 之 间 是 条 件 独 立 的 。( 条 件 独立 的 定义 见 6.2 节 。) 

可 用 一 个 特殊 的 信念 网 络 来 表示 朴素 贝 叶 斯 分 类 器 的 独立 性 。 在 该 网 络 中 ， 特 征 作为 
节点 ， 目标 变量 (类 别 ) 没 有 父亲 节点 ， 类 别 是 每 一 个 输入 特征 的 唯一 父亲 。 这 样 的 信念 网 
络 需要 目标 特征 Y 的 概率 分 布 PC(Y) 和 每 一 个 输入 特征 X; 的 概率 分 布 己 (Xi |Y). WFE 
一 个 样本 ， 可 依据 观察 到 的 输入 特征 值 和 类 别 信息 计算 预测 值 。 


Culture Fly Hot Music Nature Likes 
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给 定 具 有 输入 X=, oy Xeon 的 样本 ， 可 利用 贝 叶 斯 规则 计算 该 样本 类 别 Y 的 


后 验 概率 分 布 : 
PRY |X; = Vses Ae = %) 
_ POX = as X = uw |Y) kK POY) 
P(X, = wh ,sR = u) 
_ _ PX =m | DX POG = w|Y) x PY) 
DiyP(X = | X + KP = [YX POY) 

Hp 4} et — A — i RS l. FEA RAK, RUS 
要 确定 最 可 能 的 类 。 

为 了 学 习 一 个 分 类 器 ， 如 7..2. 3 节 所 述 ， 可 以 从 数据 中 计算 得 到 每 个 输入 特征 的 概率 
分 布 P(Y) 和 P(X;|Y)。 最 简单 的 方法 是 将 训练 数据 中 的 经 验 频率 作为 概率 ( 即 利用 占 训 
练 数据 的 比例 作为 概率 ) 。 但 是 ， 当 存在 0 概率 的 时 候 这 并 非 是 一 个 好 方法 ， 如 下 所 述 。 

【 例 7-12] 给 定 如 图 7-1 所 示 的 
数据 ,假定 Agent 想 预测 用 户 的 行 bag 
为 。 在 这 个 例子 中 ， 用 户 的 行为 就 是 
类 别 。 这 里 的 朴素 贝 叶 斯 分 类 器 对 应 

es ke Oe 7-10 ”对 应 于 一 个 朴素 贝 叶 斯 分 类 器 的 信念 网 
假定 Agent 利用 经 验 频 率 作 为 样本 的 概率 。 这 些 可 从 数据 中 导出 的 概率 如 下 : 


P(UserAction = reads) = 5 = 0.5 





P(Author = known | UserAction = reads) = = 
P( Author = known | UserAction = sips) = 二 


P( Thread = new | UserAction = reads) = 


Ka 

9 

P( Thread = new |UserAction = kips) = + 
P(Length = long |UserAction = reads) = 0 

cil 

9 


P(Length = long | UserAction = skips) = 
P(uhereRead = home | UserAction = reads) = = 
4 


P(WhereRead = home |UserAction = skips) = 9 
从 这 些 概 率 可 以 看 出 ， 特 征 Author 和 WhereRead 没有 预测 能 力 ， 因为 它们 的 取 值 不 影响 
用 户 将 阅读 文章 的 概率 。 本 实例 的 剩余 部 分 将 忽略 这 些 特征 。 
对 于 一 个 新 样本 (特征 Author, Thread, Length 和 WhereRead WER IE unknown , 
followUp, short 和 home)， 我 们 有 
P (UserAction = reads | Thread = followUp A Length = short) 
= P( followUp | reads) X P(short | reads) X P(reads) X c 


2 1 
=~ KIX Xe 


=X 
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P (UserAction = skips | Thread = followUp A Length = short) 
= P( followUp | skips) X P(short | skips) X P(skips) X ¢ 


其 中 c 是 归 一 化 常数 ， 用 以 保证 上 述 两 者 的 和 为 1。 显 然 ,，c NEI, BFL 


P(UserAction = reads | Thread = followUp A Length = short) = 0.6 

这 样 的 预测 对 于 样本 eu 无效， 即 虽 然 Thread W followUp H. Length W short, FAP 
的 行为 却 是 s&zzbs。 朴 素 贝 叶 斯 分 类 器 将 数据 归结 为 一 些 参 数 的 求 取 。 它 预测 用 户 将 阅读 
文章 的 原因 是 : Length=short 是 将 阅读 文章 的 信和 号，Thread= followUp 是 将 略 过 文章 
的 信号 ， 前 者 的 指示 强度 大 于 后 者 。 

对 于 Length long 的 新 样本 ， 我 们 有 PC Length=long|UserAction=reads)=0. A 
此 ， 无 论 其 他 特征 取 什么 值 ，UserAction =reads 的 后 验 概率 都 等 于 0。 < 

0 概率 的 使 用 会 导致 一 些 不 可 预测 的 后 果 。 首 先 ， 一 些 特征 变 得 具有 预测 能 力 : 仅仅 
知道 一 个 特征 的 值 就 能 排除 一 个 类 别 。 如 果 人 允许 0 概率 ， 组 合 一 些 观察 值 是 不 可 能 的 ， 见 
习题 7. 13。 使 用 贝 叶 斯 分 类 器 ，0 概率 问题 并 非 一 定 是 必然 的 ， 但 将 经 验 频率 作为 概率 就 
会 出 现 0 概率 问题 。 使 用 经 验 频率 (同时 避免 0 概率 问题 ) 的 一 个 可 行 方法 是 引进 伪 计 数 。 
正如 下 面 的 例子 所 述 ， 学 习 器 的 设计 者 应 该 小 心地 选择 伪 计 数 。 

【 例 7-13] 考虑 例 6-16 所 示 的 帮助 系统 ， 其 中 帮助 Agent 根据 用 户 给 定 的 关键 词 推断 
用 户 感 兴趣 的 帮助 页 面 。 对 于 这 样 的 一 个 系统 ， 我 们 如 何 学 习 其 中 的 概率 ? 帮助 Agent 必须 
知道 两 种 概率 每 个 帮助 页 面 (这 些 页 面 是 用 户 想 要 的 ) 的 先 验 概 率 ; 给 定 帮助 页 面 的 前 提 
下 ， 每 个 关键 词 的 概率 。 必 须 学 习 这 些 概率 的 原因 是 系统 设计 者 预先 并 不 知道 用 户 会 使 用 什 
么 词语 。 当 用 户 寻求 帮助 的 时 候 ，Agent 能 从 用 户 真正 使 用 的 词语 中 学 得 这 些 概率 。 

学 习 器 必须 知道 PCA). WE, CRAB h 一 个 伪 计 数 。 可 以 为 那些 预先 知道 将 
更 可 能 被 使 用 的 页 面 设 定 更 大 的 伪 计 数 。 如 果 设 计 者 并 没有 关于 什么 页 面 将 更 可 能 被 使 用 
的 先 验 信念 ， 则 Agent 可 以 为 所 有 页 面 设 定 相 同 的 伪 计 数 。 至 于 使 用 什么 样 的 计数 ， 设 计 
者 必须 考虑 这 样 的 一 个 问题 : 在 Agent 看 过 一 个 页 面 之 后 ， 它 有 多 大 程度 信任 该 页 面 正 是 
所 需要 的 ? 见 7. 2. 3 节 。 如 果 设 计 者 已 经 通过 优化 训练 数据 上 的 伪 计 数 (或 通过 使 用 层次 
贝 叶 斯 模型 ) 建 立 了 另外 一 个 帮助 系统 ， 学 习 这 样 的 伪 计 数 是 可 能 的 。 给 定 伪 计数 和 一 些 
数据 ， 可 以 计算 Ph), 方法 是 将 所 有 页 面 的 计数 和 除 以 与 h 相关 的 计数 (经 验 计 数 加 上 
伪 计 数 )。 

对 于 词 wW; MR H hi AFB) Agent a MEAG, B h 是 合适 的 页 面 时 ， 使 用 词 
w 的 个 数 ( 记 为 of ) 和 未 使 用 词 wi 的 个 数 ( 记 为 c)， 它 们 都 不 应 是 0。 我 们 期 望 从 平均 意 
义 上 讲 呆 大 于 ce， 原因 是 我 们 希望 一 个 查询 平均 上 只 使 用 所 有 词语 中 的 一 小 部 分 词 。 我 
们 可 能 为 出 现在 帮助 页 面 h; 里 的 那些 词 和 不 出 现在 h; 里 的 那些 词 设 定 不 同 的 计数 ， 以 便 
系统 从 合乎 情理 的 状态 开始 运行 。 

每 当 用 户 声 称 找到 了 他 们 感 兴趣 的 帮助 页 面 时 ， 都 要 更 新 该 页 面 的 计数 和 所 有 词语 的 条 
件 计 数 。 具 体 的 ， 如 果 用 户 宣称 h 是 其 感 兴趣 的 页 面 ， 则 增 大 与 h: 相关 联 的 计数 中 和 性。 

上 述 模 型 没有 使 用 有 关 错 误 页 面 ( 即 不 感 兴趣 的 页 面 一 一 译 者 注 ) 的 信息 。 如 果 用 户 声 
称 一 个 页 面 不 是 他 感 兴趣 的 ， 这 种 信息 需要 在 找到 正确 的 页 面 ( 即 感 兴趣 的 页 面 一 一 译 者 
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注 ) 之 后 才 可 能 被 使 用 。 

构建 这 样 一 个 帮助 系统 的 最 大 挑战 不 在 于 学 习 本 身 ， 而 在 于 获得 有 用 的 数据 。 特 别 
的 ,用户 可 能 并 不 知道 他 们 是 否 找 到 了 他 们 想 要 的 页 面 ， 因 而 也 就 可 能 不 知道 何 时 停止 寻 
找 和 给 出 学 习 系 统 所 需要 的 反馈 信息 。 一 些 用 户 可 能 对 所 有 页 面 都 不 满意 。 事 实 上 ， 令 用 
户 满意 的 页 面 可 能 一 个 也 不 存在 ,但 这 种 信息 并 没有 反馈 给 学 习 者 。 男 一 方面 , 一些 用 户 
可 能 指出 他 们 已 经 找到 了 想 要 的 页 面 ， 即 使 可 能 存在 男 一 个 更 合适 的 页 面 。 后面 一 种 情形 
可 能 导致 正确 页 面 的 计数 减少 ， 从 而 使 得 发 现 不 了 该 页 面 。 < 

虽然 存在 一 些 朴 素 贝 叶 斯 分 类 器 的 结果 不 好 的 情形 ， 但 总 的 来 说 它 是 一 种 非常 简单 、 
易于 实现 、 大 多 数 情况 下 效果 非常 好 的 学 习 算 法 。 对 于 一 个 新 问题 ， 尝试 使 用 朴素 贝 叶 斯 
分 类 器 是 一 种 不 错 的 选择 。 

p kpa 朴素 贝 叶 斯 分 类 器 在 满足 独立 性 假设 ( 即 类 是 其 他 特征 的 - -个 很 好 的 预测 
器 和 给 定 类 的 条 件 下 其 他 特征 是 独立 的 ) 的 时 候 工作 良好 。 通 过 自然 演化 形成 的 自然 类 应 
et 
或 椅子 类 。 


7.4 组 合 模型 


决策 树 、 遍 线性 函数 和 贝 叶 斯 分 类 器 是 其 他 许多 有 监督 学 习 技术 的 基础 。 线 性 分 类 响 
的 表示 能 力 是 非常 受 限 的 。 虽 然 决策 树 能 够 表示 任意 的 离散 函数 ， 但 是 许多 简单 函数 的 决 
策 树 表示 十 分 复杂 。 贝 叶 斯 分 类 器 使 用 一 个 先 验 的 建 模 假设 ， 它 在 实际 问题 中 可 能 失效 。 

增强 线性 函数 的 表示 能 力 的 一 种 方法 是 : 增加 一 些 输入 特征 ， 使 得 线性 函数 变 为 原始 
输入 特征 的 某 种 非 线性 函数 。 增 加 这 些 新 特征 可 能 增加 空间 的 维度 ， 使 得 某 些 函数 在 低 维 
空间 不 是 线性 的 (或 线性 可 分 的 )， 但 在 高 维 空间 却 是 线性 的 。 

【 例 7-14) FRAS, ri xor x;2， 在 三 维 空间 X,, X Maz 上 是 线性 可 分 的 ， 其 中 
ajc, 是 一 个 新 特征 ， 其 取 值 规则 是 : 当 zi 和 x; 两 者 都 为 真 时 结果 为 真 。 为 了 可 视 化 这 个 
结果 ， 考 虑 图 7-8: 通过 增加 ziz; 为 第 三 维特 征 ， 图 中 右上 角 的 点 将 越 出 页 面 边界 ， 从 而 
允许 获得 一 个 线性 分 离 器 (此 时 是 一 个 平面 )。 < 

支持 向 量 机 (support vector machine，SVM) 可 用 于 分 类 ， 它 利用 原始 输入 的 函数 作为 
线性 函数 的 输入 。 这 些 用 作 输 入 的 函数 称 为 核 函 数 (kernel function)。 存 在 许多 可 能 的 核 
函数 ， 原 始 特征 的 积 就 是 一 个 例子 ， 增 加 特征 的 积 作 为 新 的 特征 足以 表示 异 或 函数 。 然 
而 ， 增 加 空间 的 维度 可 能 导致 过 拟 合 。 支 持 向 量 机 构建 一 个 决策 面 ( 超 平面 )， 用 以 将 正 类 
样本 和 负 类 样本 在 高 维 空 间 中 隔 开 。 间 隔 Cmargin) 定 义 为 从 决策 面 到 任意 样本 的 最 小 距 
离 。 支 持 向 量 机 寻找 具有 最 大 间隔 的 决策 面 。 最 靠近 决策 面 的 样本 ( 即 支持 向 量 ) 支 撑 起 这 
个 决策 面 。 特 别 的 ， 如 果 删 除 这 些 样 本 ， 则 决策 面 会 发 生变 化 。 支 持 问 量 使 得 能 够 用 比 样 
本 个 数 少 很 多 的 参数 定义 决策 面 ， 从 而 避免 了 过 拟 合 。 有 关 支 持 向 量 机 的 更 详细 描述 见 本 
章 末 尾 的 参考 文献 。 

神经 网 络 允许 扁 线 性 函数 的 输入 是 带 有 需 调 整 参 数 的 扁 线 性 函数 。 将 多 层 扁 线性 函数 
作为 预测 目标 变量 的 扁 线 性 函数 的 输入 ,使 得 神经 网 络 能 够 表示 更 为 复杂 的 函数 。 神 经 网 
络 将 在 后 面 作 进一步 曾 述 。 

另 一 种 非 线 性 的 表示 形式 是 回归 树 (regression tree) ， 它 是 决策 树 的 一 种 ， 只 不 过 时 
子 节点 是 一 个 扁 线性 函数 。 回 归 树 可 以 近似 地 表示 分 段 线性 函数 。 与 回归 树 类 似 ， 决策 树 
的 叶子 甚至 可 以 是 神经 网 络 或 支持 向 量 机 。 为 了 分 类 一 个 新 样本 ， 先 将 它 顺 着 树 往 下 过 


第 7 章 ”学习 概 述 与 有 监督 学 习 207 


滤 ， 然 后 使 用 叶子 节点 上 的 分 类 器 分 类 该 样本 。 

可 以 对 朴素 贝 叶 斯 分 类 器 进行 扩展 ， 人 允许 存在 一 些 特 征 是 类 别 的 父 节 点 和 子 节点 。 在 给 
定 父 节 点 的 前 提 下 ， 类 别 的 概率 可 以 表示 成 决策 树 ( 或 扁 线性 函数 ， 或 神经 网 络 )。 类 别 的 子 
节点 不 必 是 独立 的 ， 可 以 表示 为 树 增 强 朴素 贝 叶 斯 网 络 (tree augmented naive Bayesian 
network)， 在 该 网 络 中 ， 子 节点 除了 类 别 节点 ， 还 允许 一 个 其 他 父 节点 的 存在 (只 要 最 终 的 
结果 图 是 无 环 的 ) 。 这 种 简单 的 模型 解释 了 子 节 点 之 间 的 相互 依赖 性 。 一 种 可 替代 的 方法 
是 在 类 变量 中 引 人 结 构 。 潜 在 树 模型 (latent tree model) 将 类 变量 分 解 成 一 系列 的 潜在 变 
量 ， 这 些 变量 通过 树 结 构 连 接 在 一 起 。 每 一 个 观察 到 的 变量 都 是 其 中 一 个 潜在 变量 的 子 节 
点 。 潜 在 变量 允许 对 观察 到 的 变量 之 间 的 依赖 性 进行 建 模 。 

另外 一 种 方法 是 使 用 多 个 分 类 器 : 首先 在 数据 上 分 别 训练 这 些 分 类 器 ， 然 后 利用 一 些 
诸如 投票 或 线性 函数 的 机 制 将 这 些 分 类 器 组 合 在 一 起 。 这 种 技术 就 是 所 谓 的 集成 学 习 。 


7.4.1 神经 网 络 


神经 网 络 是 一 种 流行 的 用 于 学 习 的 目标 表示 形式 。 神 经 网 络 是 受到 大 脑 神 经 元 的 启发 
而 提出 的 ， 但 并 没有 真正 模拟 神经 元 。 与 人 类 大 脑 中 存在 的 大 约 10" 个 神经 元 相 比 ， 人 工 
神经 网 络 包含 的 神经 元 ( 称 为 单元 ) 个 数 通常 要 少 得 多 ; 此 外 ， 与 生物 学 意义 上 的 神经 元 相 
比 ， 这 些 单元 要 简单 得 多 。 
人 工 神 经 网 络 是 一 个 有 趣 的 研究 课题 ， 原 因 如 下 : 
。 作为 神经 系统 科学 的 一 个 部 分 ， 为 了 理解 真正 的 神经 系统 ， 和 研究 人 员 模 拟 了 一 些 
诸如 蠕虫 之 类 的 低 等 动物 的 神经 系统 。 这 些 研 究 有 望 理解 究竟 是 神经 系统 的 哪些 
方面 解释 了 这 些 动物 的 行为 。 
。 一 些 研究 人 员 试 图 不 仅 自 动 化 实现 智力 的 功能 (人 工 智能 研究 的 内 容 )， 而 且 自 动 化 
构造 大 脑 的 结构 。 一 个 假设 是 ， 实 现 大 脑 功 能 的 唯一 途径 是 使 用 与 大 脑 一 样 的 结构 。 
测试 该 假设 的 方法 是 ， 分 别 通过 使 用 与 不 使 用 大 脑 的 结构 来 尝试 智能 的 实现 。 构 造 
其 他 机 器 (一 个 例子 是 飞行 器 ， 它 使 用 与 乌 飞 行 相 同 的 原理 ， 但 结构 不 同 ) 的 实验 预 
示 着 该 假设 可 能 不 成 立 。 虽 然 如 此 .测试 该 假设 是 一 个 令 人 感 兴趣 的 工作 。 
。 大 脑 启 发 一 种 与 现存 计算 机 不 同 的 计算 新 方法 。 与 现在 的 计算 机 不 同 ， 它 具有 更 
少 的 处 理 器 和 大 量 的 本 质 上 是 惰性 的 存储 器 ,“ 大 脑 ” 由 大 量 的 蜡 构 的 分 布 式 过 程 
组 成 (这 些 过 程 并 发 执行 ， 不 存在 主 控制 器 )。 我 们 不 应 认为 目前 的 计算 机 是 用 于 
计算 的 唯一 体系 结构 。 
。 与 其 他 学 习 算 法 (例如 决策 树 ) 相 比 ， 神 经 网 络 提供 了 一 种 不 同 的 简洁 性 度量 作为 
学 习 的 偏 置 。 多 层 神经 网 络 和 决策 树 一 样 ， 能 表示 离散 特征 集 的 任意 函数 . 但 是 ， 
能 用 简单 神经 网 络 表 示 的 函数 不 一 定 能 用 简单 的 决策 树 表示 。 神 经 网 络 与 决策 树 
提供 了 不 同 的 学 习 偏 置 ， 在 实践 中 究竟 哪个 更 好 是 一 个 经 验 性 的 问题 ， 可 以 通过 
在 不 同 领域 的 测试 来 判定 。 
存在 许多 不 同 种 类 的 神经 网 络 ， 本 书 考虑 其 中 的 一 种 ， 即 前 馈 神 经 网 络 (feed-forward 
neural network) 。 前 馈 神经 网 络 可 以 看 成 级 联 的 扁 线 性 函数 。 输 入 数据 进入 隐藏 单元 层 
(可 以 有 多 层 )， 最 终 进入 输出 层 。 每 个 隐藏 单元 层 都 是 其 输入 的 扁 线性 函数 。 

这 种 神经 网 络 的 输入 可 以 是 多 个 任意 实数 ， 输 出 的 是 一 个 实数 。 对 于 回归 间 题 ， 通 常 
输出 单元 提供 的 是 其 输入 的 线性 函数 ; 而 对 于 分 类 问题 ， 通 常 输出 单元 提供 的 是 其 输入 的 
sigmoid 函数 (因为 不 可 能 有 超出 [0，1] 范 围 的 预测 值 ) 。 对 于 隐藏 单元 层 来 说 ， 和 输出 是 其 
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输入 的 线性 函数 是 不 可 能 的 ， 因 为 线性 函数 的 线性 函数 是 一 个 线性 函数 。 增 加 额外 的 层次 
并 不 能 带 来 新 的 功能 。 困 此 ， 每 一 个 隐 层 单元 的 输出 是 其 输入 的 一 个 扁 线性 函数 。 

与 神经 网 络 相关 的 是 所 有 线性 函数 的 参数 。 可 以 同时 调 优 这 些 参 数 ， 方 法 是 通过 最 小 
化 训练 样本 上 的 预测 误差 来 实现 。 

【 例 7-15) 图 7-11 给 出 了 只 有 一 个 隐 层 的 神经 网 络 ， 用 于 处 理 如 图 7-9 所 示 的 分 类 
数据 。 如 例 7-11 所 解释 ， 这 个 数据 集 不 是 线性 可 分 的 。 该 数据 集 有 5 个 布尔 输入 特征 ， 
分 别 对 应 于 是 否 有 文化 积淀 、 是 否 必须 坐 飞 机 、 目 的 地 是 否 很 热 、 是 否 有 音乐 、 是 否 有 
自然 景观 5 个 因素 ; 唯一 的 输出 特征 对 应 于 人 是 否 喜欢 去 度假 。 在 该 神经 网 络 中 ， 只 有 
一 个 包含 两 个 隐藏 单元 的 隐 层 ， 其 中 隐藏 单元 没有 先 验 的 含义 。 这 个 网 络 表 示 了 下 列 
AH: 

poal(e,Likes) = fC wo + w X talle, H1) + w: X mille, H2)) 

wal (e,H1) = flws, + uw, X wl (e, Culture) + ws X ulle, Fly) 
+ ws X wile, Hot) + w, X ul (e,Music) + we X wl Ce, Nature)) 
ual(e,H2) = fC ws + wy X wl le, Culture) + wy, X wile, Fly) 
+ wy X wile, Hot) + wy X wl le, Music) + wu X wile, Nature)) 
其 中 f(z) 是 一 个 激活 函数 。 

对 于 这 个 例子 来 说 ， 需 要 学 习 15 个 实数 (参数 ) (rw ，…*，zwis)， 因 此 假设 空间 是 一 个 

15 维 的 实 值 空间 。 空 间 中 的 每 一 个 点 对 应 于 一 个 函数 ， 它 预测 每 个 样本 的 输出 值 。 


输入 单元 
Ws 


隐藏 单元 


输出 单元 





图 7-11 带 有 一 个 隐 层 的 神经 网 络 ， 其 中 也 是 权 值 。 节 点 里 面 的 权 值 不 
依赖 于 输入 ， 其 系数 为 1。 该 神经 网 络 的 涵义 见 例 7-15 可 


给 定 参 数值 和 输入 值 ， 神 经 网 络 预测 目 标 特 征 的 值 。 神 经 网 络 的 目标 是 : 给 定 样本 
集 ， 和 寻找 最 小 化 误差 的 参数 值 。 如 果 存 在 m 个 参数 ， 寻 找 具 有 最 小 误差 的 参数 值 涉及 搜索 
一 个 m 维 的 欧 氏 空间 。 

反 向 传播 学 习 (back-propagation learning) 是 在 参数 空间 进行 梯度 下 降 搜 索 以 最 小 化 平 
方 和 误差 。 

图 7-12 给 出 了 带 有 一 个 隐 层 的 神经 网 络 的 反 向 传播 算法 ( 增 量 梯度 下 降 版 本 )。 该 算 
法 假定 及 个 输入 特征 、k 个 输出 特征 和 ni 个 隐藏 单元 。hw 和 ow 是 用 于 保存 权 值 的 二 
维 数组 。 O: m 是 从 0 到 nm (包括 nx) 的 下 标 ， l: m 是 从 1 到 m H n) BY FERo BRE 
EXT FAA A e; valle, X,)=1. 


第 7 章 学 习 概 述 与 有 监督 学 习 209 


: procedure BackPropagationLearner(X, Y, E, nas m 
Inputs 
X: MARTEMRG, X={Xi, s X,} 
Y, 目标 特征 的 集合 ， Y={¥15 s Ye} 
巨 ， 用 于 学 习 的 样本 集 
n: 隐藏 单元 的 个 数 
7: FIJE 
Output 
隐藏 单元 权 值 hwlO: ns 1: ma] 
输出 单元 权 值 ow[0: ng, 1: k] 
Local 
hw[lO; ns 1: za] 隐藏 单元 权 值 
ow[0: ns 1; 区 输出 单元 权 值 
hid[0; n, PARP IC HE 
hErr(1: ns] 隐藏 单元 的 误差 
oull: 大] 输出 单元 的 预测 值 
oErr[1: J 输出 单元 的 误差 
随机 初始 化 Aw Al ow 
hid[ 0]: =1 
repeat 
forE 中 的 每 一 个 样本 e do 
for 每 一 个 AGE {1, +++, n }do 


oN On F&F WON 
æ o oe Sel & « 


hid(h]:; = SS pLisA Xwle,X,) 
i=0 
for 每 一 个 AE (1, +, k}do 
out[o]: = AAA X hid [k] 
h=0 


oErr(o]; = out[0] X (1 — out[o)) X (ml le, ¥,) — out[o]) 
for 每 一 个 hE{0, =+. m}do 


hErr[h]: = hid[h] X (1 —hid[h]) X owl ,0] X oErr[o] 
o=0 


for 每 一 个 i€ {0, =, n}do 
kwlish]: = hwlish] +X hErr[A] X walle, X) 
for 每 一 个 0€ {1, ++, k}do 
ow h,o]; = owLh,o] + 9X oErr[o] X hid[h] 
until 终止 
return wo, **s Why 





7-12 带 有 一 个 隐 层 的 神经 网 络 的 反 向 传播 学 习 算 法 


反 向 传播 算法 与 如 图 7-6 所 示 的 线性 学 习 器 类 似 ， 不 同 的 是 前 者 考虑 了 多 层 结构 和 激 
活 函 数 。 直 观 地 ， 对 于 每 一 个 样本 ， 首 先 确定 隐藏 单元 的 值 ( 第 23 行 ); 然后 确定 输出 单 
元 的 值 (第 25 行 ); 接着 将 误差 通过 网 络 反 向 传播 (计算 输出 节点 和 隐藏 节点 上 的 误差 分 别 
见 第 26 行 和 第 28977); 最 后 基于 误差 的 导数 更 新 权 值 。 l 

梯度 下 降 搜 索 需 要 反复 估算 欲 最 小 化 的 函数 (这 里 指 误差 ) 及 其 导数 。 信 算 误 差 涉 及 在 
所 有 样本 上 的 迭代 计算 。 因 此 ， 反 向 传播 学 习 需 要 在 所 有 样本 上 反复 评估 神经 网 络 的 性 
能 。 幸 运 的 是 ， 我 们 采用 了 logistic 函数 一 一 给 定 每 个 单元 的 输出 值 计算 logistic 函数 的 导 
数 是 很 容易 的 。 

【 例 7-16】 如 图 7-11 所 示 的 带 有 一 个 隐 层 的 神经 网 络 ( 其 中 的 隐 层 包含 两 个 单元 )， 
经 过 在 如 图 7-9 所 示 的 数据 的 训练 之 后 ， 可 以 完美 地 匹配 这 些 数据 。 

当 学 习 率 设 为 ?一 0. 05 时 ， 运 行 一 次 反 向 传播 算法 (经 过 10 000 次 迭代 步骤 )， 最 后 学 
得 的 权 值 能 准确 地 对 训练 数据 进行 预测 : 
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Al = f(— 2.0 X Culture — 4. 43 X Fly+2.5X Hot + 2.4 Music — 6. 1 Nature +1. 63) 
H2 = f(— 0.7 X Culture + 3.0 X Fly +5. 8 X Hot +2. 0 X Music — 1.7 X Nature — 5.0) 
Likes = f{(— 8.5 X H1 — 8, 8 X H2+4. 36) < 


神经 网 络 的 运用 似乎 对 要 求 符 号 具有 实际 含义 的 物理 符号 系统 假设 (physical symbol 
system hypothesis) 提 出 了 挑战 。 对 于 神经 网 络 的 部 分 质疑 是 ， 虽然 输入 和 输出 单元 符号 
的 含义 明确 ， 但 设计 者 并 没有 给 出 隐藏 单 元 的 实际 含义 。 隐 藏 单元 真正 表示 的 是 所 学 到 的 
某 些 知 识 。 在 神经 网 络 训练 完毕 之 后 ,察看 网 络 的 内 部 细节 以 确定 隐 纪 单元 真正 表示 的 是 
什么 通常 是 可 能 的 。 有 时 候 可 以 用 语言 简明 地 表达 这 种 含义 ， 但 通常 无 法 做 到 。 然 而 ， 可 
以 说 计算 机 自 有 其 内 部 的 含义 ; 通过 考察 样本 是 如 何 映射 为 隐藏 单元 的 值 可 以 解释 其 内 部 
aX 


7.4.2 集成 学 习 


在 集成 学 习 (ensemble learning) 中 ，Agent 首先 运行 多 个 学 习 算 法 ， 然后 组 合 这 些 算 
法 的 输出 结果 进行 预测 。 用 于 组 合 的 学 习 算 法 称 为 基准 算法 (base level algorithm), 

集成 学 习 的 最 简单 情形 是 在 数据 的 随机 子 集 上 训练 基准 算法 ,然后 要 么 通过 投票 选择 
最 可 能 的 类 别 ( 对 于 确定 性 的 预测 而 言 )， 要 么 取 基 准 算 法 预测 的 平均 值 作 为 最 终 的 结果 。 
例如 , 我 们 可 以 在 随机 样本 集 ( 占 训练 数据 的 50 中 ) 上 训练 多 棵 决策 树 ， 然 后 投票 选择 最 可 
能 的 分 类 或 到 预测 的 平均 值 作 为 结果 -。 次 策 树 的 输出 甚至 可 以 作为 线性 分 类 器 的 输入 。 线 
性 分 类 器 的 权 值 可 以 通过 学 习 获 得 。 

这 种 方法 在 基准 算法 不 稳定 (unstable) 的 情形 下 工作 良好 : 基准 算法 依据 所 选择 的 数 
据 子 集 倾向 于 产生 不 同 的 表示 形式 。 决 策 树 和 神经 网 络 是 不 稳定 的 ， 但 线性 分 类 器 的 稳定 
性 较 好 ， 因 此 采用 线性 分 类 器 做 集成 效果 可 能 较 差 。 

在 bagging 方法 中 ， 阁 存在 芭 个 训练 样本 ， 则 将 随机 有 放 回 采样 的 m 个 样本 组 成 的 
数据 子 集 用 于 基准 算法 的 训练 。 对 于 每 个 这 样 的 数据 子 集 ， 训 练 数据 中 的 有 些 样本 未 被 选 
中 、 有 些 样 本 则 多 次 被 选中 。 平均 每 个 数据 子 集约 占 原始 训练 数据 的 63%。 

在 提升 (boosting) 方 法 中 ， 存 在 一 系列 的 分 类 器 ， 每 个 分 类 器 使 用 一 个 加 权 的 样本 集 。 
那些 被 先前 分 类 器 误 分 的 样本 会 获得 更 大 的 权 值 。 吉 权 的 样本 可 用 于 训练 基准 分 类 器 ， 也 
可 以 影响 训练 样本 的 选择 (这 些 样 本 用 于 训练 未 来 分 类 器 ) 。 

构建 基准 分 类 器 的 另 一 种 方法 是 对 输入 特征 进行 操纵 分 解 。 可 以 在 不 同 的 特征 上 训练 
基准 分 类 器 。 这 些 特征 集 通常 由 手工 调整 获得 。 

此 外 ， 也 可 以 通过 随机 化 算法 的 途径 获得 多 种 基准 分 类 器 。 例 如 ， 对 参数 设置 不 同 的 
初始 值 可 能 导致 神经 网 络 收 敛 于 不 同 的 局 部 最 小 值 ， 进 而 给 出 不 同 的 预测 值 。 这 些 不 同 的 
神经 网 络 ( 参 数 的 初始 值 不 同 ) 可 以 组 合 起 来 进行 预测 。 


7.5 避免 过 拟 合 


过 拟 合 的 情形 会 在 下 述 情 况 中 出 现 : 训练 数据 具有 的 一 些 规则 并 不 符合 测试 数据 ， 而 
学 习 者 应 用 这 些 规则 作 预 测 。 

【 例 7-17】 图 7-13 展示 了 平方 和 误差 是 如 何 随 着 线性 回归 算法 迭代 次 数 的 变化 而 变 
化 的 。 随 着 和 迭代 次 数 的 增加 ， 训练 集 上 的 平方 和 误差 是 不 断 减 小 的 。 而 对 于 测试 集 来 说 ， 
随 着 迭代 次 数 的 增加 ， 误 差 先 是 到 达 一 个 最 小 点 ， 然 后 又 增加 了 。 在 决策 树 学 习 中 ， 当 分 
裂 的 次 数 增加 时 ， 会 发 生 相同 的 行为 (变化 情况 ) 。 
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7-13 ” 随 训练 时 间 而 变化 的 误差 。z 轴 是 反 向 传播 算法 (神经 网 络 带 有 3 个 隐藏 单元 ) 运 行 
的 和 送 代 步 数 。 算 法 采用 的 训练 数据 见 图 六 9， 测 试 数据 是 目标 特征 值 未 知 的 样本 集 。 
y 轴 是 平方 和 误差 ( 灰 线 代表 训练 集 上 的 误差 ， 黑 线 代表 测试 集 上 的 误差 ) < 


本 节 讨 论 两 种 避免 过 拟 合 的 方法 。 第 一 种 是 显 式 地 在 模型 复杂 性 和 匹配 训练 数据 之 间 
进行 折 中 。 第 二 种 是 使 用 部 分 训练 数据 检测 过 拟 合 。 


7.5.1 最 大 后 验 概率 和 最 小 描述 长 度 


在 模型 复杂 性 和 匹配 训练 数据 之 间 进 行 折 中 的 一 种 方法 是 ， 在 给 定数 据 的 条 件 下 选择 
最 有 可 能 的 模型 。 换 名 话说， 选择 最 大 化 条 件 概率 PCmodei1data ) 的 模型 ， 称 该 模型 为 最 
大 后 验 概率 (maximum a posteriori probability) 模 型 ， 或 MAP 模型 。 

可 以 用 贝 叶 斯 规则 计算 给 定数 据 条 件 下 的 模型 (或 假设 ) 概 率 : 


P(model |data) = P(data | model) X P( model) (7.3) 
P(data) 


似 然 性 PC data |model) 指 的 是 模型 产生 这 个 数据 集 的 概率 。 如 果 模 型 与 数据 匹配 良好 ， 则 
似 然 性 的 值 较 大 ， 反 之 亦 然 。 先 验 概率 PCnodel) bay IF He earning bias)， 规 定 了 
哪个 模型 在 先 验 意 义 上 是 最 可 能 的 。 模 型 的 先 验 概率 PCmodel) 对 于 学 习 偏 向 选择 简单 模 
型 是 必需 的 。 通常 ， 简 单 模型 具有 更 大 的 先 验 概率 。 分 母 PCdata) 是 归 一 化 常数 ， 以 确保 


概率 和 为 1 。 

由 于 式 (7, 3) 的 分 母 与 模型 无 关 ， 所 以 当选 择 最 可 能 的 模型 的 时 候 可 以 忽略 它 。 因 此 ， 
MAP 模型 最 大 化 

P(data | model) X Plmodel) (7. 4) 


另 一 种 方法 是 选择 最 大 似 然 模型 (maximum likelihood model) 一 一 最 大 化 P (data 
[model ) 的 模型 。 选 择 最 有 可 能 的 模型 的 问题 是 ， 如 果 模 型 空间 足够 丰富 ， 则 一 定 存在 产 
生 特 定数 据 集 的 模型 ， 即 P(data |model) 二 1。 明 然 先 验 地 选择 这 种 模型 的 可 能 性 非常 小 ， 
但 我 们 不 想 排除 这 种 模型 ， 因 为 它 有 可 能 是 真正 的 模型 。 选 择 最 大 似 然 模 型 等 价 于 选择 在 
假设 空间 上 具有 一 致 先 验 分 布 的 最 大 后 验 概率 模型 。 

1. 决策 树 的 MAP 学 习 

为 了 理解 MAP 学 习 ， 考 虑 它 是 如 何 应 用 于 学 习 决 策 树 的 。 如 果 不 存 在 输入 特征 值 相 
同 而 目标 特征 值 不 同 的 样本 ， 则 一 定 存 在 完美 匹配 数据 的 决策 树 。 如 果 训 练 样本 没有 涵盖 
输入 变量 的 所 有 取 值 、 多 棵 决策 树 将 完美 地 匹配 数据 。 然 而 ， 在 存在 噪声 的 情况 下 ， 这 些 
决策 树 都 不 可 能 是 最 好 的 模型 。 我 们 不 仅 要 比较 完美 匹配 数据 的 模型 ， 也 要 比较 那些 不 必 
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如 此 的 模型 。MAP 学 习 提 供 了 比较 这 些 模型 的 一 种 方法 。 

假定 存在 准确 匹配 数据 的 多 裸 决策 树 。 如 果 model 代表 其 中 的 一 棵 决策 树 ， 则 
Pl(data |model) 二 1。 偏 好 选择 这 棵 而 非 那 棵 决策 树 取决 于 决策 笃 的 先 验 概率 ; 先 验 概率 编 
码 了 学 习 偏 置 。 由 于 简单 决策 树 具 有 更 大 的 先 验 概率 ， 所 以 偏好 简单 而 非 复 杂 的 决策 树 。 

贝 叶 斯 规则 提供 了 一 种 在 简单 性 和 处 理 品 声 数 据 的 能 力 之 间 进 行 折 中 的 方法 。 通 过 
在 叶子 节点 引入 概率 ， 决 策 树 能 够 处 理 噪声 数据 。 当 存在 噪声 的 时 候 ， 大 的 决策 树 更 适 
合 训练 数据 ， 因 为 它 能 够 考虑 训练 数据 中 的 随机 规律 (噪声 )。 在 决策 树 学 习 中 ， 最 大 似 
然 模型 偏爱 更 大 的 决策 树 : 决策 树 越 复 杂 ， 它 就 越 与 数据 相 匹 配 。 先 验 分 布 则 偏爱 更 小 
的 决策 树 。 当 存在 一 个 决策 树 上 的 先 验 分 布 的 时 候 ， 贝 叶 斯 规则 规定 了 如 何在 模型 复杂 
性 与 准确 性 之 间 进 行 折 中 : 给 定数 据 条 件 下 的 模型 后 验 概率 和 似 然 性 与 先 验 概率 的 乘积 
WE. 

CG) 7-18) 考虑 如 图 7-1 所 示 的 数据 ， 学 习 咒 预测 用 户 的 行为 。 

第 一 棵 可 能 的 决策 树 如 图 7-4 左边 所 示 ， 称 这 棵 决策 树 为 心 。 数 据 的 似 然 性 为 1， 即 
P(data | d;) 二 1，d; 准确 地 匹配 了 数据 。 

第 二 棵 可 能 的 决策 树 具 有 如 下 特点 没有 内 部 节点 ， 叶 子 节点 预测 reads 的 概率 是 


+ 这 是 在 给 定数 据 的 前 提 下 ， 没 有 内 部 节点 时 的 最 有 可 能 的 决策 树 ， 称 之 为 4; 。 此 时 给 


定 模型 条 件 下 数据 的 似 然 性 为 


P(data |do) = (BY x (4); a 0.000.001 49 


第 三 棵 可 能 的 决策 树 如 图 7-4 右边 所 示 ， 它 仅仅 在 特征 Length 上 作 分 裂 ， 叶 子 节 点 
上 的 概率 分 别 是 PCreads | Length =long) =0 和 P(reads|Length = short) = 广 。 注意 ， a 
是 在 训练 数据 中 Length=short 时 reads 的 经 验 频率 。 称 这 棵 决策 树 为 wise。 此 时 给 定 模型 
条 件 下 数据 的 似 然 性 为 


P(data |da) = 1° X fon. ia 


第 四 棵 可 能 的 决策 树 仅仅 在 特征 Thread 上 作 分 裂 ， 叶 子 节点 上 的 概率 分 别 是 
P(reads|Thread =new) = 二 (10 个 样本 中 ，Thread 二 nerw H. UserAction=reads 的 样本 有 


) =~ 0.054 3 


7 个 ?和 P(reads|Thread = followUp) 二 之 。 称 这 棵 决策 树 为 心 ,。 此 时 给 定 和 模型 条 件 下 数 


据 的 似 然 性 为 
P(data |d;,) = rah x (条 类 x Ce) x (2). ~ 0. 000 025 
这 里 列 出 的 仅仅 是 其 中 4 棵 可 能 的 决策 树 。 哪 一 棵 最 好 取决 于 决策 树 的 先 验 概率 。 数 据 的 
似 然 性 与 决策 树 先 验 概率 的 乘积 决定 了 决策 树 的 后 验 概率 。 < 
2. 描述 长 度 


式 (7. 4) 的 负 对 数 (以 2 为 底 ) 是 

(— log, P (data | model )) 十 (— log: P(model )) 
这 可 以 用 信息 论 (information theory) 来 解释 。 表 达 式 的 左边 表示 的 是 用 于 描述 数据 (给 定 
模型 的 条 件 下 ) 的 二 进 制 位 数 ， 右 边 则 表示 用 于 描述 模型 的 二 进 制 位 数 。 最 小 化 上 述 两 项 
之 和 的 模型 称 为 最 小 描述 长 度 (minimum description length，MDL) 模 型 。MDL 准则 选择 
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这 样 的 模型 ， 它 最 小 化 用 于 描述 模型 及 其 给 定 模型 下 的 数据 的 二 进 制 位 数 。 

理解 MDL 准则 的 一 种 途径 是 考虑 用 尽 可 能 简洁 的 方法 传送 数据 。 模 型 的 使 用 是 为 了 
使 传送 的 路 径 更 短 。 为 了 传送 数据 ， 首 先 必 须 传 送 模型 ， 然 后 才 是 传送 数据 (在 给 定 模型 
的 条 件 下 )。 利 用 一 个 模型 传送 数据 所 需 的 三 进 制 位 ， 是 传送 模型 和 传送 数据 (在 给 定 模型 
的 条 件 下 ) 所 需 的 二 进 制 位 之 和 。MDL 准则 选择 利用 尽量 少 的 三 进 制 位 传送 数据 的 模型 。 

由 于 对 数 函 数 是 单调 上 升 的 ， 所 以 MAP 模型 和 MDL 模型 是 等 价 的 。 选 择 具有 最 大 
后 验 概率 的 模型 和 选择 具有 最 小 描述 长 度 的 模型 是 等 价 的 。 

【 例 7-19) Bil 7-18 没有 说 明 决 策 树 的 先 验 概率 。 描 述 长 度 的 概念 为 定义 决策 树 的 先 
验 概率 提供 了 一 个 基本 原则 考虑 需要 用 多 少 二 进 制 位 描述 一 棵 决策 树 ( 见 例 7-11)。 我 们 
必须 仔细 定义 编码 ， 因 为 每 一 种 编码 都 应 描述 一 棵 决策 树 ; 反之 每 一 棵 决策 树 都 应 由 一 
种 编码 描述 。 < 


7.5.2 交叉 验证 


7.5.1 节 所 述 方法 的 一 个 问题 是 ， 它 们 要 求 在 Agent 看 到 数据 之 前 就 拥有 关于 简洁 性 
的 知识 。 这 个 问题 可 理解 为 : 如 果 Agent 能 够 从 数据 中 作出 决定 ， 那 么 一 个 模型 需要 多 大 
的 复杂 性 。 在 学 习 Agent 没有 关于 世界 的 先 验 信息 的 时 候 ， 这 种 方法 是 适用 的 。 

交叉 验证 (cross validation) 的 思想 是 将 训练 集 划 分 为 两 部 分 : 一 部 分 用 于 训练 ， 另 一 
部 分 用 作 验 证 集 (validation set), Agent 利用 新 的 训练 集训 练 模型 ， 在 验证 集 上 的 预测 用 
于 确定 采用 哪个 模型 。 

考虑 图 7-13， 训 练 误差 随 着 决策 树 规 模 的 增 大 而 减 小 。 交 又 验 证 的 思想 是 选择 在 验证 
集 上 具有 最 小 误差 的 表示 形式 。 此 时 ， 学 习 过 程 可 以 一 直 进 行 下 去 ， 直 到 验证 上 集 上 的 误差 
开始 增 大 。 

作为 训练 数据 一 部 分 的 验证 集 和 测试 集 是 不 一 样 的 。 测 试 集 用 于 评估 学 习 算 法 的 整体 
性 能 。 将 测试 集 作 为 学 习 ( 训 练 ) 的 一 部 分 是 不 可 信 的 。 一 定 要 记 住 ， 我 们 的 目的 是 对 目前 
Agent 还 未 观察 的 样本 进行 预测 。 测 试 集 是 这 些 还 未 观察 到 的 样本 的 一 种 蔡 代 ， 因 此 它 不 
能 用 于 训练 或 验证 。 

通常 ， 我 们 想 在 尽 可 能 多 的 样本 上 做 训练 ， 因 为 这 样 可 以 获得 更 好 的 模型 。 可 是 ， 这 
样 会 使 得 验证 集 的 规模 较 小 ， 这 意味 着 该 验证 集 与 模型 的 匹配 是 不 确定 的 ; 或 者 良好 ， 或 
者 不 好 ， 仅 和 赁 运气 。 存 在 多 种 为 训练 和 验证 重复 使 用 样本 的 方法 。 

有 & 折 交叉 验证 就 是 一 种 确定 最 优 模 型 复杂 性 (例如 决策 树 的 深度 、 神 经 网 络 中 的 隐藏 
节点 数 等 ) 的 方法 。k 折 交 叉 验 证 (&-fold cross validation) 将 训练 集 划 分 成 个 集合 。 对 于 
每 一 种 模型 的 复杂 性 ， 学 习 器 训练 次 ,每 次 使 用 其 中 的 一 个 集合 作为 验证 集 ， 其余 的 用 
作 训 练 。 然 后 它 选 择 验 证 集 上 的 平均 误差 (4 次 运行 的 平均 值 ) 最 小 的 模型 复杂 性 。 它 能 够 
返回 具有 这 种 复杂 性 (在 所 有 的 数据 上 训练 ) 的 模型 。 


7.6 基于 案例 的 推理 


上 述 方法 设法 找到 用 于 未 来 预测 的 数据 的 一 个 紧 致 表示 。 在 基于 案例 的 推理 (case- 
based reasoning) 中， 我 们 存储 和 访问 训练 样本 ( 即 案例 ) 以 解决 新 问题 。 为 了 获得 新 样本 
的 预测 值 ， 用 那些 与 新 样本 类 似 或 相近 的 案例 预测 新 样本 的 目标 特征 值 。 这 是 学 习 问 题 的 
一 种 极端 情形 ， 与 决策 树 和 神经 网 络 不 同 ， 该 方法 的 离线 工作 量 相 对 较 小 ， 几 乎 所 有 的 工 
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作 都 是 在 查询 时 完成 的 。 

基于 案例 的 推理 可 用 于 分 类 与 回归 。 它 也 适用 于 复杂 的 案例 ， 例 如 ， 在 法 律 案件 中 ， 
案例 指 复杂 的 法 律 裁决 ;在 规划 中 ， 案 例 指 复杂 问题 的 历史 解决 方案 。 

如 果 案 例 比 较 简单 ， 采 用 一 种 称 为 k 近邻 (&A-nearest neighbor) 的 算法 效果 良好 。 给 定 
一 个 新 样本 ， 与 它 有 相近 输入 特征 值 的 个 训练 样本 用 于 预测 新 样本 的 目标 特征 值 。 预 测 
值 可 以 是 个 训练 样本 目标 值 的 模 数 、 平 均值 或 菜 种 插值 ， 距 离 近 的 样本 可 能 比 距 离 远 的 
样本 权重 更 大 。 

为 了 采用 这 种 方法 ， 需 要 一 种 估量 样本 之 间 相 似 性 的 距离 度量 。 首 先 为 每 个 特征 的 值 
域 定义 一 个 度量 ,使 得 特征 值 转 化 为 可 以 比较 大 小 的 数值 。 假 定 val (e，X;) 是 特征 XKE 
样本 e 上 的 值 的 数值 表示 ， Mi (valle; , X;)— valle, X;)) 是 样本 ej FI ez 在 特征 ;所 定义 
WHER LZR. KRES (Euclidean distance) 指 的 是 所 有 维度 上 的 差异 的 平方 和 的 平方 
根 ， 它 可 用 作 两 个 样本 之 间 的 距离 度量 。 一 个 重要 的 问题 是 不 同 维度 的 相对 比例 大 小 ; 增 
加 某 个 维度 的 比例 意味 着 提高 了 该 特征 的 重要 性 。 令 w 是 一 个 非 负 实 值 参数 ， 它 表示 特 
征 X; 的 重要 性 ， 则 样本 e 和 ez 之 间 的 距离 可 定义 为 


dlei ver) = , [X] w; X Cal Ce, »X;) — wal (es X, 


特征 的 权重 可 以 通过 输入 提供 。 此 外 ， 学 习 这 些 权重 也 是 可 能 的 。 学 习 Agent 设法 找到 最 
小 化 误差 的 参数 设置 误差 的 计算 通过 预测 训练 集中 的 每 一 个 样本 (训练 集中 的 其 他 样本 
用 作 训 练 ) 来 实现 ， 称 为 留 一 法 交叉 验证 误差 (leave-one-out cross-validation) 。 

【 例 7-20) 考虑 在 如 图 7-1 所 示 的 数据 上 使 用 基于 案例 的 推理 。 不 是 将 数据 转化 为 诸 
如 在 决策 树 或 神经 网 络 学 习 中 的 间接 表示 ， 基 于 案例 的 推理 直接 利用 样本 预测 新 样本 中 用 
户 的 行为 。 

假定 学 习 Agent 想 分 类 样本 ex ， 该 样本 的 Author, Thread, Length 和 WhereRead 
特征 的 值 分 别 是 unknown, followUp, short 和 /home。 首 先 ， 学 习 器 设法 找到 类 似 的 案 
例 。 因 为 存在 一 个 完全 匹配 的 样本 en. 所 以 预测 用 户 将 采用 和 样本 ea 相同 的 行为 ， 即 忽 
格 该 文章 (UserActionz 王 ips) 。 此 外 ， 它 也 可 能 包含 其 他 相近 的 样本 。 

考虑 分 类 样本 ee ， 该 样本 的 Author, Thread, Length 和 WhereRead 特征 的 值 分 别 
是 unknown, new. long 和 orR 。 此 时 并 不 存在 完全 匹配 的 样本 ， 因 此 考虑 相近 匹配 。 
eyo Al eo. es, Cys TERETE Author, Thread 和 WhereRead 上 的 值 相同 ; AM en. ev TERE 
Thread, Length 和 WhereRead 上 的 值 相同 ; F es 在 特征 Author, Length Fl WhereRead 
上 的 值 相同 。e* 、es 、e1s 预 测 用 户 的 行为 是 Reads， 其 他 样本 则 预测 为 Sk&ips。 预 测 值 究 竞 
应 该 是 什么 ? 决策 树 认为 特征 Length 对 于 预测 是 最 重要 的 ， 因 此 e; 、es 、es 应 该 被 忽略 。 
对 于 sigmoid 线性 学 习 算 法 ， 采 用 例 7-10 中 的 参数 值 ， 预 测 的 结果 也 是 Skips。 基 于 案例 
的 推理 算法 预测 用 户 的 行为 之 前 必须 确定 各 个 维度 的 相对 重要 性 。 < 

基于 案例 的 推理 需要 访问 相关 案例 。kq 树 (kd-tree) 是 对 训练 样本 建立 索引 的 一 种 方 
法 ， 目 的 是 快速 找到 与 给 定 样 本 相近 的 训练 样本 。 和 决策 树 类 似 ，&d 树 在 输入 特征 上 作 
分 裂 ， 但 其 叶子 节点 是 训练 样本 的 子 集 。 由 样本 集 建立 一 棵 kd 树 ， 学 习 器 首先 设法 找到 
一 个 输入 特征 ， 将 样本 集 划 分 为 规模 大 致 相同 的 多 个 子 集 ; 然后 分 别 在 多 个 子 集 上 建立 
kd 树 。 这 个 划分 过 程 一 直 进 行 ， 直 到 叶子 节点 上 的 样本 不 再 变化 为 止 。 和 决策 树 一 样 ， 
新 样本 可 以 顺 着 树 向 下 过 滤 ; 正确 的 匹配 将 在 叶子 节点 上 找到 。 然 而 ，kd 树叶 子 节点 上 
的 样本 可 能 和 和 欲 分 类 的 样本 相去 甚 远 ; 它们 虽然 和 顺 着 树枝 向 下 过 滤 的 值 相 匹 配 ， 但 有 可 
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能 与 其 他 特征 的 值 不 一 致 。 这 种 树 也 可 以 用 于 搜索 那些 与 测试 样本 仅 有 一 个 特征 不 相同 的 
样本 。 见 习题 7. 16。 

基于 案例 的 推理 也 适用 于 复杂 的 案例 ， 例 如 法 律 案件 和 规划 问题 的 历史 解决 方案 。 在 
这 种 情况 下 ， 需 要 仔细 挑选 和 编辑 案例 ， 以 使 得 这 些 案例 发 挥 作用 。 基 于 案例 的 推理 可 以 
看 成 是 下 面 4 个 任务 的 一 个 循环 : 

RA: 给 定 一 个 新 案例 ， 从 案例 库 中 检索 类 似 的 案例 。 

重用 : 改编 检索 到 的 案例 以 适合 这 个 新 案例 。 

修正 : 评估 答案 并 根据 其 效果 修改 答案 。 

保存 : 决定 是 否 将 这 个 新 案例 保留 在 案例 库 中 。 

修正 可 涉及 其 他 的 一 些 推理 技术 ， 例如， 使 用 推荐 的 答案 作为 搜索 男 一 个 答案 的 初始 
值 ， 或 者 在 交互 式 系 统 中 人 们 对 案例 进行 改编 。 最 后 保存 这 个 新 案例 和 找到 的 答案 。 

【 例 7-21] 用 户 请 求解 决 问题 的 帮助 平台 是 基于 案例 的 推理 系统 的 一 个 常见 例子 。 例 
如 ， 诊 断 助 手 可 利用 基于 案例 的 推理 帮助 用 户 在 自己 的 计算 机 系统 上 诊断 问题 。 当 用 户 给 
出 问题 的 描述 后 ， 就 从 案例 库 中 检索 出 最 相近 的 案例 。 诊 断 助手 能 够 推荐 一 些 案例 给 用 
户 ， 并 根据 用 户 的 特殊 要 求 改编 每 个 案例 。 改 变 推 荐 是 改编 的 一 个 实例 ， 这 基于 下 述 问 题 
的 考虑 : 用 户 拥有 什么 软件 ， 他 们 采用 什么 方法 连接 因特网 ， 采 用 的 打印 机 是 什么 牌子 
的 ， 等 等 。 如 果 其 中 的 一 个 案例 可 行 ， 那 么 就 将 它 记 录 在 案例 库 中 ， 以 使 得 当 别 的 用 户 询 
问 类 似 的 问题 时 能 突出 该 案例 的 重要 性 。 如 果 没 有 一 个 案例 是 可 行 的 ， 那么 需要 采用 其 他 
的 方法 求解 问题 ， 例 如 改编 其 他 案例 或 由 人 帮助 诊断 问题 。 当 问题 最 终 确 定 后 ,将 相应 的 
案例 加 入 案例 库 中 。 < 


7.7 改进 假设 空间 的 学 习 


到 目前 为 止 ， 学 习 要 么 是 选择 最 优 的 表示 形式 (例如 ， 最 优 的 决策 树 或 神经 网 络 中 的 最 
优 参数 值 ) ， 要 么 是 依据 历史 案例 预测 新 案例 的 目标 特征 值 。 本 节 考 虑 一 种 不 同 的 学 习 概念 ， 
即 通 过 勾画 与 样本 一 致 的 假设 空间 进行 学 习 。 目 标 不 是 选择 一 个 假设 ， 而 是 寻找 所 有 一 致 的 
假设 。 这 里 将 阐明 学 习 偏 置 的 作用 ， 并 给 出 对 学 习 算 法 进行 理论 分 析 的 一 个 机 制 。 

我 们 先 给 出 三 个 假定 条 件 : 

。 只 有 一 个 布尔 型 的 目标 特征 Y。 这 并 非 完全 限定 于 分 类 ， 因 为 可 以 利用 指示 变量 

将 任意 的 离散 型 特征 转化 为 布尔 型 特征 。 

。 假设 给 出 确定 性 的 预测 ， 即 对 每 个 样本 给 出 “ 真 ” 或 “ 假 ” 的 预测 ， 而 非 概率 预测 。 

。 数据 中 不 存在 噪声 。 

这 些 假定 条 件 使 得 用 命题 的 形式 定义 一 个 假设 成 为 可 能 ， 甚 中 原始 命题 指 的 是 输入 特 
征 的 赋值 。 

【 例 7-22) 如 图 7-4 所 示 的 决策 树 可 以 看 成 用 如 下 命题 定义 的 reads 表示 : 

poalCe,Reads) = wil(e,Short) A (walle, New) V al(e,Known)) 

在 本 节 的 其 余部 分 ， 我们 采用 一 种 更 简洁 的 书写 形式 : 

reads+> short A (new V known) < 

我 们 的 目标 是 设法 找到 一 个 基于 输入 特征 的 命题 ， 用 以 正确 地 分 类 样本 。 

【 例 7-23) 考虑 交易 Agent 试图 基于 给 定 的 关键 词 推断 用 户 将 阅读 哪些 书 或 文章 的 问 
题 。 假 定 学 习 Agent 拥有 下 列 数据 : 
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Crime Academic Local 


true 

false 
false 
false 
false 





目标 是 学 习 用 户 将 阅读 哪些 文章 。 

在 这 个 例子 中 ， 目标 特征 是 reads， 学 习 的 目标 是 找到 如 下 形式 的 命题 : 

reads«*crime À (` academic V ~ music) 

这 个 命题 可 以 用 来 分 类 训练 样本 以 及 未 来 的 样本 。 a 

假设 空间 学 习 假 定 具 有 下 列 集合 : 

。 实例 空间 (instance space)I， 指 的 是 所 有 可 能 样本 的 集合 。 

。 假设 空间 (hypothesis space)H， 指 的 是 输入 特征 上 的 布尔 函数 集 。 

© ECT 是 训练 样本 (training example) 集 。 训 练 样本 中 的 输入 特征 值 和 目标 特征 值 均 

为 已 知 。 

如 果 hERH 和 iEI， 则 09 代表 预测 样本 i 上 的 目标 特征 Y 的 值 。 

【 例 7-24) 在 例 7-23 中 ,I 是 32(2 一 32) 个 样本 的 集合 ， 每 一 个 样本 对 应 特征 取 值 的 
一 种 组 合 。 

假设 空间 1 可 以 是 输入 特征 的 所 有 布尔 组 合 ， 或 是 施加 了 某 些 限制 的 组 合 (例如 用 少 
于 三 个 特征 定义 的 合 取 式 或 命题 ) 。 

WAE E Æla» ，az，as，a，a}， 目 标 特征 是 Reads。 由 于 在 训练 样本 中 指定 了 
目标 特征 的 值 ， 且 学 习 器 将 对 未 观察 到 的 样本 进行 预测 ， 所 以 学 习 器 需要 一 个 学 习 偏 置 。 
在 假设 空间 学 习 中 ， 偏 置 由 假设 空间 规定 。 4 

MRVeCE, 严 准 确 地 预测 了 e 的 目标 特征 值 ， 则 称 假设 h 和 训练 样本 集 E 是 一 致 的 
(consistent)。 换 名 话说 ，h(e)= 二 val(e，Y)， 即 预测 值 和 真正 值 对 于 每 一 个 样本 而 言 都 是 
相同 的 。 我 们 的 目标 是 找到 与 训练 样本 一 致 的 如 的 子 集 或 其 中 的 一 个 元 素 。 

【 例 7-25] 考虑 如 例 7-23 所 示 的 数据 ， 并 假定 1 是 文字 合 取 的 集合 。 与 {al )} 一 致 的 一 
个 1 中 的 假设 是 academic A music, XERA MP AE E HA academic N music 
为 真 。 这 个 假设 并 不 是 我 们 想 要 的 ， 因为 它 和 {a ，a;} 不 一 致 。 < 


7.7.1 变型 空间 学 习 


与 枚 举 所 有 的 假设 不 同 ， 可 以 通过 在 假设 空间 上 规定 某 些 结构 而 高 效 地 找到 与 样本 一 
致 的 及 的 子 集 。 

如 果 假 设 hs MAT ho WAG A, ALE. h 是 一 个 更 一 般 的 假设 ; 换 句 话说 , SA 相 
IK, ho 是 一 个 更 特殊 的 假设 。 与 自身 相 比 ， 任 意 假 设 均 为 更 一 般 的 假设 和 更 特殊 的 假设 
( 即 两 者 同时 成 立 )。 

【 例 7-26] 假设 academic \ music 比 music Fil academic 都 更 特殊 ， 因 此 ，music th 
academic \ music 更 一 般 。 最 一 般 的 假设 是 true， 最 特殊 的 假设 是 false. 

Se 更 一 般 ” 的 关系 在 假设 空间 上 形成 了 一 个 偏 序 关系 。 变 型 空间 算法 利用 这 种 偏 
序 关 系 去 搜索 与 训练 样本 一 致 的 假设 。 

给 定 假设 空间 及 和 训练 样本 集 EE， 变 型 空间 (version space) 指 的 是 与 训练 样本 一 致 的 
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7 的 子 集 。 

变型 空间 的 一 般 边 界 (general boundary)G 指 的 是 变型 空间 中 最 一 般 的 假设 的 集合 ( 即 
没有 其 他 的 假设 比 这 些 假 设 更 一 般 )。 变 型 空间 的 特殊 边界 (specific boundary) S 指 的 是 恋 
型 空间 中 最 特殊 的 假设 的 集合 。 

一 般 边 界 和 特殊 边界 的 概念 是 有 用 的 ， 因 为 它们 完全 确定 了 变型 空间 : 

命题 7.2 给 定 假设 空间 和 训练 样本 集 万 ， 变 型 空间 可 以 由 它 的 一 般 边 界 和 圣 殊 边 
界 导 出 。 特 别 的， 变型 空间 是 假设 有 的 集合 (hEH)， 这 些 假设 满足 : hS 中 的 某 个 元 素 
更 一 般 ， 比 G 中 的 某 个 元 素 更 特殊 。 

1. 候选 删除 算法 

给 定 假 设 空间 1t 和 训练 样本 集 E, ew RBH (candidate elimination algorithm) 增 量 
地 构建 变型 空间 。 在 该 算法 中 ， 样 本 是 一 个 一 个 加 入 的 : 每 加 人 一 个 样本 ， 都 可 能 因 删 除 
与 样本 不 一 致 的 假设 而 缩减 变型 空间 。 对 于 每 一 个 新 样本 ， 候 选 删除 算法 通过 更 新 一 般 边 
界 和 特殊 边界 来 达到 目的 。 算 法 详情 见 图 7-14, 


l: procedure CandidateEliminationLearner(X, Y, E, HD 
Inputs 
X: HAREM RS, X={Xi, +, Xa} 
Y: 目标 特征 
E: 用 于 学 习 的 样本 集 
H: 假设 空间 
Output 
一 般 边 界 GOH 
与 王 一 致 的 特殊 边界 SSE 
Local 
G: XH 中 的 假设 集 d 
S: KH 中 的 假设 集 


Let G= {true}, S={ false}; 
for 每 一 个 eEE do 
if e 是 一 个 正 类 样本 then 
删除 G 中 将 e 分 为 负 类 的 元 素 ; 
: 删除 S 中 将 e 分 为 负 类 的 元 素 s， 并 用 一 个 将 分 为 正 类 的 新 元 素 (s 的 最 小 推广 ， 但 一 般 性 不 如 已 中 
的 某 个 成 员 ) 替 换 它 ; 
删除 S 中 的 非 最 特殊 假设 ; 


else 
删除 S 中 将 e 分 为 正 类 的 元 素 ; 
WRG Pie 分 为 正 类 的 元 素 g， 并 用 一 个 将 。 分 为 负 类 的 新 元 素 (g 的 最 小 特 化 ， 但 比 S 中 的 某 个 成 
员 更 一 般 ) 蔡 换 它 . 
删除 G 中 的 非 最 一 般 假设 





图 7-14 候选 删除 算法 


【 例 7-271 考虑 候选 删除 算法 是 如 何 处 理 例 7-23 的 数据 的 ， 其 中 假设 空间 人 是 文字 合 
取 的 集合 。 

在 观察 到 样本 之 前 ，G, = {true} (用户 一 定 阅 读 ) 和 So = (false) (用户 一 定 不 阅读 )。 
注意 ，true 代表 空 合 取 ，false 代表 原子 公式 与 其 否定 的 合 取 。 

当 观 察 到 第 一 个 样本 a, Zia» G= {true} H 

S, = {crime A “academic 人 ~ local A music} 
此 时 ， 最 一 般 的 假设 是 用 户 一 定 阅 读 ， 最 特殊 的 假设 是 只 有 当 输 入 特征 值 和 样本 a 完全 
一 致 时 用 户 才 阅 读 。 
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当 观 察 到 第 二 个 样本 之 后 ，G, = {true} H. 

S, = {crime A ~ academic A ~ local} 
此 时 ， 由 于 a Ma: 在 特征 music 上 不 一 致 ， 所 以 得 出 特征 music 无 用 的 结论 。 

当 观 察 到 第 三 个 样本 之 后 ， 一 般 边 界 变 成 

G; = {crime , > academic} 
H S; 二 S:。 此 时 存在 两 个 最 一 般 的 假设 ， 即 特征 crime Ay true 时 用 户 一 定 阅 读 和 特征 
academic 为 false 时 用 户 一 定 阅 读 。 

当 观 察 到 第 四 个 样本 之 后 ， 

G, = {crime, "academic 人 ` local} 
本 Se=Sae 

1 当 所 有 的 5 个 样本 均 考 察 完 毕 之 后 ， 我 们 有 

G; = {crime} 

S; = (crime 人 7 local} 
此 时 ， 在 变型 空间 中 仅 存 在 两 个 假设 。 它 们 之 间 仅 有 的 区 别 在 于 : 当 一 个 样本 的 crime A local 
为 true 时 ， 它 们 的 预测 不 一 样 。 如 果 目 标 概念 可 以 表示 成 合 取 的 形式 ， 仅 当 一 个 样本 的 crime A 
local 为 true 时 才 会 改变 G 或 S。 这 个 变型 空间 可 以 对 所 有 其 他 的 样本 进行 预测 。 < 

2. 变型 空间 学 习 的 偏 置 

回想 一 下 ， 对 于 任意 学 习 算 法 而 言 ， 偏 置 对 于 获得 泛 化 能 力 是 必需 的 。 例 7-27 中 必 
定 存在 偏 置 ， 因 为 在 仅 观察 到 16 个 输入 变量 的 可 能 赋值 中 的 5 个 之 后 ，Agent 就 能 够 对 
还 未 观察 到 的 样本 进行 预测 。 

变型 空间 学 习 中 的 偏 置 称 为 语言 偏 置 (language bias) 5% BR fl #4 B (restriction bias), A 
为 偏 置 是 通过 限制 允许 的 假设 而 获得 的 。 例 如 ， 一 个 具有 特征 crime 为 false, music 为 
true 的 新 样本 将 被 分 类 为 false (用 户 将 不 阅读 文章 )， 即 使 以 前 并 没 观 察 到 这 样 的 样本 。 
假设 必须 是 文字 的 合 取 这 种 限制 对 于 预测 是 足够 的 。 

语言 偏 置 与 决策 树 学 习 涉 及 的 偏 置 是 不 同 的 。 决 策 树 可 以 表示 任意 布尔 函数 。 决 策 树 
学 习 涉 及 偏好 偏 置 (preference bias)， 因 为 它 更 偏好 一 些 布尔 函数 : 与 大 的 决策 树 相 比 ， 
它 更 偏好 小 的 决策 树 。 自 顶 向 下 建立 单一 决策 树 的 决策 树 学 习 也 涉及 搜索 偏 置 (search 
bias) ， 因 为 返回 的 决策 树 依赖 于 所 使 用 的 搜索 策略 。 

由 于 除了 涉及 选择 假设 空间 1t 时 的 语言 偏 置 外 ， 候 选 删除 算法 没有 涉及 其 他 的 任何 偏 
置 ， 因 此 有 时 它 被 认为 是 一 种 无 偏 置 的 学 习 算法 。 将 变型 空间 恶化 成 空 集 是 不 难 的 ， 例 如 
使 得 存在 特征 crime 为 false, music 为 trxe， 且 用 户 阅 读 文章 的 样本 。 这 意味 着 目标 概念 
不 在 HH 之 中 。 变 型 空间 学 习 是 非 抗 噪 的 ， 仅仅 一 个 误 分 的 样本 就 能 破坏 整个 系统 。 

无 偏 置 (bias-free) 的 假设 空间 指 的 是 凡 由 所 有 的 布尔 函数 组 成 。 在 这 种 情形 下 ，G 总 
是 包含 这 样 的 一 个 概念 : 观察 到 了 所 有 的 负 类 样本 ， 其 他 的 均 是 正 类 样本 。 类 似 的 ，S 包 
含 所 有 未 观察 到 的 样本 均 属 负 类 的 概念 。 这 种 变型 空间 对 于 未 观察 到 的 样本 不 能 作出 任何 
结论 ， 因 此 它 没有 泛 化 能 力 。 如 果 没 有 语言 偏 置 或 偏好 偏 置 ， 那 么 就 没有 泛 化 能 力 ， 也 就 
无 所 谓 学 习 了 。 


7.7.2 可 能 近似 正确 学 习 


我 们 已 经 看 到 了 一 些 不 同 的 学 习 算 法 。 本 节 将 讨论 一 些 学 习 理 论 方面 的 问题 (属于 计 
算 学 习 理 论 (computational learning theory) 领 域 )。 


第 7 章 学 习 概 述 与 有 监督 学 习 219 





计算 学 习 理 论 致力 于 回答 的 一 些 相 关 问 题 如 下 : 
。 增加 样本 能 保证 学 习 器 收敛 到 正确 的 假设 吗 ? 
。 识别 一 个 概念 需要 多 少 样本 ? 
。 识别 一 个 概念 需要 多 少 计算 量 ? 
一 般 的 ， 第 一 个 问题 的 答案 是 否定 的 ， 除 非 能 保证 样本 总 会 最 终 排除 不 正确 的 假设 。 
可 以 通过 选择 一 些 对 于 判别 假设 正确 与 否 没 有 帮助 的 样本 来 误导 学 习 器 ; 因此 ， 如 果 不 能 
排除 这 种 情况 ， 学 习 器 不 能 保证 一 定 找到 一 致 的 假设 。 然而， 给 定 一 些 随机 选择 的 样本 ， 
总 能 选择 一 致 假设 的 学 习 器 能 获得 与 正确 概念 任意 逼近 的 解 。 这 需要 定义 通 近 的 概念 和 说 
明 什 么 是 随机 选择 的 样本 。 
考虑 能 选择 与 所 有 训练 样本 一 致 假设 的 学 习 算法 ， 并 假定 存在 一 个 在 所 有 可 能 样本 上 
的 概率 分 布 ， 训 练 样本 和 测试 样本 均 服从 该 分 布 。 这 个 概率 分 布 不 一 定 是 已 知 的 。 我 们 将 
证 明 一 个 对 所 有 分 布 都 成 立 的 结果 。 
假设 AC HAIR GOW error(h)) LAH I NEK i, AG)AvalG,. YM 
概率 : 
error (h) = PHG) 4 wlGi,Y) |i € D 
Hp AG) Al valli, 了 分 别 是 目标 变量 Y 在 样本 i 上 的 预测 值 和 真实 值 。 了 代表 实例 空间 ， 
即 所 有 可 能 样本 的 集合 。 由 于 Agent 通常 并 不 知道 了 或 val(i, Y)， 因 此 也 不 知道 特定 假 
设 的 误差 。 
给 定 e>0, WER error(h)<e, WR REE bh SEI IEW (approximately correct) H). 
我 们 做 以 下 假设 。 
假设 7.3 训练 样本 和 测试 样本 是 独立 地 从 相同 的 概率 分 布 中 选择 的 。 
样本 不 能 识别 与 概念 相去 甚 远 的 假设 依然 是 可 能 的 (虽然 可 能 性 很 小 )。 能 选择 一 个 与 
训练 样本 一 致 的 假设 的 学 习 器 ， 如 果 对 于 一 个 任意 的 实数 800 过 6 委 1) ， 算 法 不 是 近似 正确 
的 概率 至 多 是 5， 则 该 学 习 器 是 可 能 近似 正确 (probably approximately correct) 的 。 换 人 句 话 
说 ， 获 得 的 假设 至 少 是 1 一 6 概率 近似 正确 的 。 
在 假设 7. 3 下 ， 对 于 任意 的 e 和 65， 我 们 可 以 保证 算法 (返回 一 致 假设 的 算法 ) 能 至 少 
在 1 一 6 概率 下 找到 误差 小 于 e 的 假设 。 而 且 这 个 结果 不 依赖 于 数据 的 概率 分 布 。 
给 定 > 和 5 二 0， 将 假设 空间 及 分 为 两 部 分 : 
Hs = {h E Hyerror(h) Se} 
Hı = {hk € Heerror(h) >e} 
目标 是 保证 学 习 器 没有 选择 7t 中 的 假设 的 概率 大 于 5。 
假设 hEKHti， 那么 
P( 对 于 一 个 样本 而 言 ,h 是 错误 的 ) 宇 & 
P( 对 于 一 个 样本 而 言 'h 是 正确 的 ) 过 1 一 & 
P( 对 于 讽 个 样本 而 言 ,hh 是 正确 的 ) < Oe)" 
因此 ， 
PH 包含 一 个 对 于 mz 个 样本 而 言 是 正确 的 假设 ) 
< |Ha ey 
< |H|a-e” 
< |H|em 
Hp Fil FA ARK —e) Se, OSe< 1. 
FE, MR\Hle “过 68， 我 们 就 能 保证 KH 没有 包含 一 个 对 于 m 个 样本 而 言 是 正确 的 
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假设 的 概率 大 于 8。 因 此，H, 包含 了 所 有 正确 的 假设 的 概率 大 于 1 一 6。 
对 m R 有 


m> = (in| Ht +a) 


于 是 ,我 们 得 到 了 如 下 的 命题 。 
命题 7. 4 如 果 一 个 假设 至 少 与 
二 (nl +n) 


个 训练 样本 一 致 ， 那 么 它 至 少 以 le RR hT e. 

保证 上 述 误差 界 的 样本 的 数目 称 为 样本 复杂 度 (example complexity)， 它 是 se、6 ME 
设 空间 大 小 的 函数 。 

【 例 7-28] 给 定 假设 空间 XK 是 n 个 布尔 变量 上 的 文字 的 合 取 。 此 时 ，1H1 二 3" 十 1， 
这 是 因为 对 每 一 个 合 取 来 说 ， 其 中 每 个 变量 的 状态 是 下 列 三 种 情况 之 一 : 1) 变 量 本 身 ; 2) 
变量 的 否定 ; 3) 变 量 未 出 现 。 加 1 是 考虑 了 取 值 为 false 的 情形 ， 即 任意 原子 与 其 否定 的 


合 取 。 因此， 样本 复杂 度 是 十 (nln3 十 ln 广 )， 它 是 n、 寺 生计 的 多 项 式 组 合 ， 


假定 有 30 个 布尔 变量 , 我 们 想 至 少 以 99% 的 概率 保证 至 多 5% 的 误差 ， 则 e=1/20, 
6 二 1/100 和 2 一 30。 这 个 界 表 明 : 如 果 找 到 与 20X (30In3+1n100) +752 个 样本 一 致 的 假 
设 ， 则 我 们 可 以 保证 上 述 性 能 。 与 可 能 的 样本 数目 (22 王 1073 741 824) 和 假设 数目 (3” 十 1 
=205 891 132 094 650) 相 比 ， 样 本 复杂 度 (752 个 样本 ) 少 得 多 。 < 


【 例 7-29】 如 果 假 设 空间 XH 是 所 及 个 变量 上 的 布尔 函数 的 集合 ， 则 1K1 二 2”， 因 此 
我 们 需要 二 ( 2"ln2 十 jn 地) 个 样本 ,样本 复杂 度 是 的 指数 函数 。 


假定 有 30 个 布尔 变量 ， 我 们 想 至 少 以 99% 的 概率 保证 至 多 5% 的 误差 则 e=1/20, 
6=1/100 入 = 二 30。 这 个 界 表明 :; 如 果 找 到 与 20X (2° 1n3+1n100) 14 885 222 452 个 样 
本 一 致 的 假设 ， 则 我 们 可 以 保证 上 述 性 能 。 < 

考虑 本 节 开 始 所 提出 的 第 三 个 问题 ， 即 学 习 器 能 够 以 多 快 的 速度 找到 可 能 近似 正确 的 
假设 ? 首先 ， 如果 样本 复杂 度 是 参数 大 小 (例如 上 述 的 双 的 指数 函数 ， 则 计算 复杂 度 是 指 
HAW: 这 是 因为 算法 必须 至 少 考虑 每 个 样本 一 次 。 为 了 使 一 个 算法 具有 多 项 式 的 时 间 复 
杂 度 ， 我 们 必须 找到 一 个 具有 多 项 式样 本 复杂 度 的 假设 空间 ， 并 且 该 算法 处 理 每 个 样本 的 
时 间 复 杂 度 也 是 多 项 式 的 。 


7.8 贝 叶 斯 学 习 


除了 选择 最 可 能 的 模型 或 者 勾画 所 有 与 训练 数据 一 致 的 模型 集合 之 外 ， 男 一 种 方法 是 
在 给 定 训练 样本 的 条 件 下 计算 每 个 模型 的 后 验 概率 。 

贝 叶 斯 学 习 (Bayesian learning) 的 思想 是 : 基于 输入 特征 和 所 有 训练 样本 ， 计 算 新 样 
本 目标 特征 的 条 件 后 验 概率 。 

假定 一 个 新 样本 的 输入 特征 X 王 zx、 目标 特征 是 Y， 目 标 是 计算 PUY | X= 工 人 Ae)s 其 
i e 是 训练 样本 的 集合 。 这 是 给 定 特定 输入 和 训练 样本 的 条 件 下 目标 变量 的 概率 分 布 ， 模 
型 被 认为 是 样本 的 生成 器 。 令 M 表示 不 相交 且 覆 盖 了 全 集 的 模型 的 集合 ， 则 可 通过 样本 
和 链 式 规则 推理 得 到 : 

PY |a Ae) = PY Amlz he = 2 PCY |m Az e)XP(m|z Ae) 

= X PY |m A x) X Pim |e) 


mEM 
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其 中 ， 前面 的 两 个 等 式 是 概率 论 中 的 定理 ,最 后 的 等 式 基 于 两 个 假定 : 模型 包含 所 有 关于 
样本 (它们 对 于 特定 的 预测 是 必需 的 ) 的 信息 ( 即 PCY |m 人 xAe)=P(Y | mAx)); 模型 不 
会 因为 新 样本 输入 的 改变 而 改变 ( 即 POn|z Ae)= 二 PGnle))。 这 个 公式 表明 我 们 调和 了 所 
有 模型 的 预测 值 ， 其 中 每 个 模型 用 其 后 验 概率 (给 定 样本 的 条 件 下 ) 进 行 了 加 权 。 
可 以 应 用 贝 叶 斯 规则 计算 POn |e): 
P(im |e) 2 P(e|m) X Pim) 


Pe) 

因此 ， 每 个 模型 的 权重 取决 于 该 模型 预测 数据 的 性 能 《 似 然 性 ) 和 它 的 先 验 概率 。 分 母 P(e) 
是 一 个 归 一 化 常量 ， 用 以 确保 重型 的 先 验 概率 之 和 为 1。 当 存在 许多 模型 的 时 候 ， 计算 
P(e) 可 能 非常 困难 。 

给 定 样 本 集 {ei1，*…，e,)， 如 果 对 于 所 有 的 i 和 7;， 样本 e Me, 由 模型 元 独立 给 出 ， 
即 Ple; Ae; lm)= 二 Plei;|m)XP(e;|m)， 则 称 样本 集 是 独立 同 分 布 (independent and identi- 
cally distributed) 的 (分 布 由 模型 m 给 出 )。 我 们 通常 假定 样本 集 是 独立 同 分 布 的 。 

令 e 代 表 样 本 和 集 {e, ，…，e:}， 即 e 是 ei 的 合 取 ， 因 为 所 有 已 观察 到 的 样本 均 为 事实 。 
样本 是 独立 同 分 布 的 ， 意味 着 


k 
P(e|m) = J| Pia |m) 
iml 


除了 在 参数 取 值 上 不 同 以 外 ， 模 型 集 还 可 能 包含 结构 不 同 的 模型 。 贝 叶 斯 学 习 的 一 种 
技巧 是 显 式 地 表达 模型 的 参数 ， 并 在 这 些 参 数 上 确定 分 布 。 

【 例 7-30] 考虑 不 确定 情形 下 的 最 简单 的 学 习 任 务 。 假 定 存 在 一 个 布尔 随机 变量 了， 
样本 的 输出 为 < 或 ae。 目标 是 给 定 一 些 样本 学 习 工 上 的 概率 分 布 。 

存在 一 个 决定 模型 集 的 参数 $5， 假 定 5 代 表 Y 了 =true 的 概率 。 我 们 把 这 个 参数 视 为 在 
KECO, 1) EAS RLS. Aik. PCal|p)=¢ Ml P(-a|s)=1—¢, 

假定 Agent 没有 关于 布尔 变量 Y 的 概率 的 先 验 信息 和 训练 样本 之 外 的 知识 。 这 种 “无 
知 ” 可 建 模 为 : 将 变量 的 先 验 概率 分 布设 为 区 间 [0，1] 上 的 均 名 分布， 见 图 7-15 中 标记 
为 no =O. m= 0 的 概率 密度 函数 。 


3.5 





图 7-15 ”基于 不 同样 本 大 小 的 beta 分 布 
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我 们 可 以 通过 给 定 一 些 样 本 来 更 新 $5 的 概率 分 布 。 假 定 样 本 (通过 多 次 独立 的 实验 而 
获得 ) 是 输出 结果 的 一 个 特定 序列 ,其 中 输出 结果 由 z 个 了 取 false RERA ni A Y 
true 的 样本 组 成 。 

给 定 训练 样本 ，# 的 后 验 概率 分 布 可 以 由 贝 叶 斯 规则 导出 。 令 。 是 观察 (ni 次 了 = 
true 和 no 次 了 二 false) 的 特定 序列 ， 则 由 贝 叶 斯 规则 可 得 : 


P(e|¢) x PC) 
P(e) 


其 中 分 母 是 一 个 归 一 化 常量 ， 用 以 确保 图 7-15 曲线 下 方 的 面积 为 1。 

假定 样本 是 独立 同 分 布 的 ， 则 

P(e|¢) = ph X A—#)% 
EH AEE m 个 Y= false 的 样本 (其 中 每 个 样本 出 现 的 概率 是 1 — 9) A n 个 了 =true 的 
样本 (其 中 每 个 样本 出 现 的 概率 是 办 。 

先 验 概率 P( 力 可 能 是 区 间 [0，1] 上 的 均匀 分 布 。 当 Agent 没有 关于 概率 的 先 验 信息 
时 ， 均 匀 分 布 的 假定 是 合理 的 。 

图 7-15 给 出 了 一 些 基于 不 同样 本 大 小 的 变量 乡 的 后 验 分 布 ， 其 中 假定 POA 
布 。 图 中 有 3 种 情形 : 《1 一 1 m= 2). (no=2, m=O». (m= 45 m8). 每 一 种 情形 


均 在 相同 的 位 置 ( 即 子 ) 达 到 峰值 。 更 多 的 样本 使 得 曲线 图 更 为 尖 西 。 4 


上 述 例子 中 的 分 布 即 是 所 谓 的 Beta 分 布 (Beta distribution)， 它 的 参数 包括 两 种 样本 
HRY = false 和 Y==true)ao Ma, 以 及 一 个 概率 p。 按 照 惯例 ， 参 数 a: 的 取 值 比 样 本 计 
数 多 1， 即 a; 二 ni 十 1。Beta 分 布 定义 为 


Beta% (p) = al x pja? 


其 中 K 是 一 个 归 一 化 常量 ， 用 以 确保 所 有 值 上 的 积分 为 1。 因此 ,， [0，1] 上 的 均匀 分 布 是 
beta 分 布 Beta’ , 

将 Beta 分 布 进行 推广 ， 使 其 包含 的 参数 多 于 两 个 ， 就 得 到 了 所 谓 的 Dirichlet 分 布 
(Dirichlet distribution), Dirichlet 分 布 包 括 两 种 类 型 的 参数 ， 即 "计数 ”aa ，…，ax 和 概率 
BR pi. +> Pe» BAM: 

Dirichlet" = (py sts pe) = Lie 


sal 


其 中 ，K 是 一 个 归 一 化 常量 ， 用 以 确保 所 有 值 上 的 积分 为 1; p; 是 第 i A h ROS 
PD; a 比 第 ; 个 输出 的 计数 多 1， 即 a 二 ni; 十 1。 如 果 从 每 一 维 的 角度 看 ，Dirichlet 分 
布 函 数 的 图 像 与 图 7-15 类 似 ( 即 每 一 个 P; 在 0 到 1 之 间 变 化 )。 

在 大 多 数 情 况 下 ， 将 所 有 模型 (用 其 后 验 分 布 加 权 ) 进 行 累加 是 困难 的 ， 因 为 模型 可 能 
比较 复杂 (例如 它们 是 决策 树 ， 甚 至 是 信念 网 络 ) 。 然 而 ， 对 于 Dirichlet 分 布 来 说 ， 第 i 个 
输出 的 期 望 值 是 : 


Pc |e) = 


ai 


dias 


参数 a 比 第 i 个 输出 的 计数 多 1 的 原因 就 是 为 了 使 得 上 述 式 子 比较 简单 。 仅 当 所 有 的 a 非 
负 和 并 非 所 有 的 w 都 为 0 时 ， 上 述 定义 才 有 意义 。 

【 例 7-31】 考虑 例 7-30， 它 基于 一 个 观察 序列 (由 7 个 了 取 false 的 样本 和 ni 个 Y 取 
true 的 样本 组 成 ) 确 定 % 的 值 。 考 察 如 图 7-15 所 示 的 后 验 概率 分 布 ， 令 人 感 兴趣 的 是 ， 虽 
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然 $ 的 最 可 能 的 后 验 概率 值 是 一 中， 期 望 值 却 是 一 +! 


no Ft mrmr 


AE, (n=l, m=2), (m=2, m=4) Ao =4, m =8) = h AE SH aE 
2. PAT. 随 着 学 习 器 获得 的 样本 数 不 断 增加 ， 期 望 值 趋 近 于 三 。 


这 种 估计 值 比方 更 好 的 原因 如 下 。 首 先 ， 它 告诉 我 们 如 果 学 习 Agent 没有 样本 该 如 何 


处 理 : 使 用 先 验 的 均匀 分 布 ， 期 望 值 取 亏 。 这 就 是 n 一 0、m 一 0 情形 下 的 期 望 值 。 第 二 ， 
考虑 n=O. m=3 的 情形 。Agent 不 应 该 使 用 P(y) 二 0， 因为 它 表明 Y 是 不 可 能 的 ， 这 当 
然 是 错误 的 ! 使 用 先 验 的 均匀 分 布 ， 这 种 情形 下 的 期 望 值 。 4 


Agent 搜索 最 优 的 模型 并 非 一 定 要 从 先 验 的 均匀 分 布 开 始 ， 它 可 以 从 任意 的 先 验 分 布 
开始 。 如 果 Agent 从 Dirichlet 分 布 开 始 搜索 ， 则 模型 的 后 验 概率 将 服从 Dirichlet 分 布 。 
可 以 通过 将 观察 到 的 计数 值 加 到 先 验 分 布 的 参数 w 上 来 得 到 该 分 布 。 

独立 同 分 布 假设 可 以 表示 成 一 个 信念 网 络 ， 其 中 每 个 ef 在 给 定 模 型 m 的 条 件 下 是 独 
立 的 。 这 种 独立 性 假设 可 以 表示 成 如 图 7-16 所 示 的 信念 网 络 。 如 果 将 m 转化 成 一 个 离散 
变量 ， 则 可 利用 第 6 章 所 介绍 的 任意 一 种 推理 方法 在 该 网 络 中 进行 推理 。 该 网 络 中 的 一 种 
标准 的 推理 技术 是 基于 所 有 观察 到 的 e; 去 查询 模型 变量 或 未 观察 到 的 e; 变量 。 

为 学 习 问 题 指定 一 个 信念 网 络 的 缺陷 是 该 模型 会 随 着 观察 样本 数 的 增加 而 变 得 庞大 。 
可 以 在 接收 到 观察 样本 之 前 指定 信念 网 络 ， 其 中 接收 观察 样本 使 用 一 个 称 为 盘子 模型 
(plate model) 的 方法 。 盘 子 模 型 规定 在 该 模型 中 将 
使 用 什么 变量 和 什么 样本 将 会 被 反复 观察 。 图 7-16 
右 侧 展示 了 一 个 盘子 模型 ， 它 表示 了 与 图 中 左 侧 的 
信念 网 络 相同 的 信息 。 盘 子 用 一 个 矩形 表示 ， 其 中 
包含 一 些 节 点 和 索引 号 (在 盘子 底 侧 右边 ) 。 用 索引 
号 对 盘 中 的 节点 进行 索引 。 在 盘子 模型 中 ， 盘 中 变 图 7-16 ” 贝 叶 斯 学 习 的 信念 网 络 和 盘子 模型 
量 有 多 份 副 本 ， 一 个 副本 对 应 索引 的 一 个 值 。 直观 
的 想法 是 存在 一 堆 盘 子 ， 每 个 盘子 对 应 索引 的 一 个 值 。 盘 子 的 数量 依赖 于 观察 的 样本 数 和 
查询 的 内 容 。 在 图 7-16 中 ， 盘 中 的 所 有 节点 共享 一 个 公共 的 父 节 点 。 给 定 父 节点 的 条 件 
下 ， 盘 中 变量 的 每 一 个 副本 的 概率 与 对 应 索引 的 概率 是 一 样 的 。 

盘子 模型 使 得 我 们 可 以 说 明 变 量 之 间 更 为 复杂 的 关系 。 在 层次 贝 叶 斯 模型 Chierarchical 
Bayesian model) 中 ， 模 型 的 参数 可 依赖 于 其 他 的 参数 ( 正 是 这 种 意义 上 ， 称 之 为 层次 模型 ) 。 

[Gi 7-32] 假定 诊断 助手 Agent 想 对 一 个 特定 住院 病人 患 流 感 (在 观察 到 症状 之 前 ) 的 
概率 进行 建 模 。 可 以 将 病人 的 这 种 先 验 信息 和 观察 到 的 症状 结合 起 来 做 诊断 。Agent 的 目 
标 是 根据 有 关 病 人 (包括 相同 医院 和 不 同 医院 内 的 病人 ) 的 统计 资料 学 习 这 种 概率 。 这 个 问 
题 包 括 从 “存在 许多 关于 该 医院 的 数据 (应 该 会 使 用 这 些 数据 )” 到 “不 存在 病人 所 在 医院 的 
有 关 数 据 ” 的 各 种 情形 。 层 次 贝 叶 斯 模型 可 用 于 组 合 这 些 统计 数据 。 

假定 对 于 一 个 在 医院 H 住院 的 病人 X ， 存 在 一 个 随机 变量 Smx ， 它 在 病人 患 流感 时 取 
真 值 (假定 医院 可 根据 身份 证 号 唯一 地 确定 每 个 病人 )。 每 个 医院 H 都 存在 一 个 值 %z7 对 
于 医院 H 中 的 每 个 病人 ，#s 用 于 表示 患 流 感 的 先 验 概率 。 在 贝 叶 斯 模型 中 ,是 是 区 间 
[0，1] 上 的 一 个 实 值 随机 变量 。Sss 依赖 于 $s (PC(Spx | $x) = $n). E Pa 服从 Beta 分 
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布 ， 加 ,和 尔 , 之 间 是 相互 独立 的 ， 但 均 依 赖 于 超 参数 (hyperparameter)。 超 参数 可 以 是 先 
验 的 样本 计数 we 和 w 。 参 数 依赖 于 超 参数 : PCP laos a) = Beta Chr, ); ao Fla 是 实 
值 随 机 变量 ， 确 定 它们 的 值 需要 某 种 先 验 分 布 。 

盘子 模型 和 相应 的 信念 网 络 见 图 7-17。 图 7-17a 是 盘子 横 型 ， 其 中 为 每 所 医院 维护 一 
个 外 部 盘子 的 副本 ， 为 每 个 住院 病人 维护 一 个 内 部 盘子 的 副本 。 图 7-17b 是 信念 网 络 。 
Sux 的 部 分 观察 值 将 影响 gz ， 进 而 影响 co Bars ao 和 上 反 过 来 将 影响 其 他 的 fu 变量 和 未 
观察 到 的 Sux FER. 





a) b) 
图 7-17 层次 贝 叶 斯 模型 

现存 的 统计 方法 可 用 于 估算 该 网 络 。 然 而 ， 如 果 变 量 是 离散 型 的 ， 则 可 应 用 第 6 章 介 
绍 的 任意 方法 。 < 

除了 利用 4$ 的 后 验 概率 分 布 导 出 期 望 值 ， 我们 还 可 以 利用 它 回答 其 他 的 问题 ， 例 如 : 
$ 的 后 验 概 分 布 在 区 间 [a，5j 上 的 概率 是 多 少 ? 即 计 算 P(($8 宇 a 人 $8 二 5) |e)。 这 就 是 牧师 
托马斯 贝 叶 斯 在 200 多 年 以 前 解决 的 问题 LBayes，1763]， 他 给 出 的 答案 (虽然 使 用 了 比较 
繁 元 的 记号 ) 是 : 

fo xa— p 

fe X (1 一 力 )”” 
这 种 知识 可 用 于 测量 中 ， 可 能 会 有 这 样 的 报告 : 20 次 测量 中 ， 至 少 有 19 次 测量 的 误差 至 
多 不 超过 5%。 这 与 用 于 可 能 近似 正确 (PAC) 学 习 中 的 信息 类 型 一 致 ，PAC 学 习 保 证 误差 


至 少 以 1 一 6 的 概率 至 多 不 超过 e。 如 果 Agent La, EJA (ME Mes EMRE, 





这 种 结论 仅 当 假设 位 于 La, 5 区 间 内 才 成 立 。1 一 6 的 值 相当 于 





PCa 八 $<<5) |), WMR = iA ô=1— Pza A$<b) |e)， 选 择 中 点 作为 假设 将 导 


致 误差 至 少 以 1 一 $ 的 概率 至 多 不 超过 se。PAC 学 习 给 出 了 最 坏 情 况 下 的 结果 ， 而 贝 叶 斯 
学 习 则 给 出 了 期 望 值 。 通常 情况 下 ， 贝 叶 斯 估计 更 准确 ， 但 PAC 结果 给 出 了 误差 的 界 。 
与 PAC 学 习 相 比 ， 贝 叶 斯 学 习 所 需 的 样本 复杂 度 ( 见 7.7.2 节 ) 通 常 少 很 多 一 一 与 保证 获 
得 满意 的 准确 率 相 比 ， 只 需要 更 少 的 样本 就 可 以 期 望 获得 满意 的 准确 率 。 


7.9 本 章 小 结 


+ 学 习 是 一 个 Agent 基于 经 验 改善 其 行为 的 能 力 。 
。 有 监督 学 习 指 的 是 给 定 一 组 由 输入 -输出 对 组 成 的 训练 样本 ， 预 测 一 个 新 输入 所 对 应 的 输出 。 
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。 给 定 一 些 训练 样本 ，Agent 构建 一 种 能 用 于 新 预测 的 表示 形式 。 

。 线性 分 类 器 、 决 策 树 和 贝 叶 斯 分 类 器 均 为 简单 的 学 习 模 型 ， 它 们 是 更 复杂 模型 的 基础 。 

。 给 定 训练 样本 的 条 件 下 ，Agent 能 够 选择 最 优 的 假设 ， 能 够 勾画 与 训练 数据 一 致 的 所 有 假设 ,或 
者 计算 假设 的 后 验 概率 。 
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7.11 习题 


7.1 该 习题 的 目的 是 填充 如 图 7-3 所 示 的 表 。 
(a) 证 明 关 于 训练 数据 的 最 优 预测 。 为 此 ， 分 别 找 出 绝对 误差 、 平 方 和 误差 和 炉 的 最 小 值 ， 以 及 最 
大 化 似 然 性 的 值 。 最 大 或 最 小 值 在 端点 或 导数 为 零 的 点 取得 。 
(b) 为 了 确定 测试 数据 的 最 优 预测 ， 假 定数 据 是 根据 某 个 真实 的 参数 po 随机 生成 的 。 对 于 po ELO, 
1] 的 不 同 取 值 ， 设 法 进行 下 列 操作 : 通过 采样 (采样 的 概率 为 po) 生 成 上 个 训练 样本 (尝试 不 同 
的 上 ， 一 些 比较 小 ， 例 如 5; 一 些 比 较 大 ， 例如 1000)。 由 生成 的 样本 可 以 计算 no 和 nw。 利用 
相同 的 参数 po 生成 一 个 包含 许多 测试 样本 的 测试 集 。 对 于 每 一 种 优化 准则 (绝对 误差 、 平 方 和 
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误差 和 似 然 性 (或 精 )) ， 下 列 哪 种 情形 在 测试 集 上 上 的 误差 较 小 ? 

D 模 数 

ii) ny / Crp +n, ) 

iii) 如 果 坟 二 0， 则 使 用 0.001; 如 果 no =O, ME 0.999; BWER m/o tm), CHAA 
0 时 用 不 同 的 数 进行 尝试 .) 

iv) (m $1)/Cng +n; +2) 

v) (nı +a) / (no +n; + 2a) (SRA AY oO 取 值 ) 

vi) 别 的 预测 器 ， 它 是 m 和 到 的 函数 。 

你 可 能 不 得 不 为 每 种 参数 值 生成 许多 不 同 的 训练 集 。( 基 于 这 些 数学 意义 上 随机 生成 的 样本 ， 

对 于 每 一 种 准则 ， 你 能 证 明 最 优 的 预测 器 是 什么 ?) 

7.2 ZERO, URE OCA RHE White. Agent 基于 参数 PE[L0，1] 做 随机 预测 是 可 能 的 ， 
其 中 预测 为 1 和 0 的 概率 分 别 是 p 和 1 一 p。 对 于 下 面 的 每 一 种 误差 度量 ,给 出 训练 集 上 的 期 望 误 
差 。 其 中 训练 集 由 n 个 取 值 为 0 的 样本 和 妈 个 取 值 为 1 的 样本 构成 ，n。 和 x 均 为 p 的 函数 。 最 
小 化 误差 的 p 值 是 多 少 ? 与 如 图 7-3 所 示 的 预测 值 相 比 ， 户 的 值 是 否 更 好 ? 





(a) 绝对 误差 

(b) 平方 和 误差 cots Doctors Lawyers Guns am 
342 Cc) 最 坏 情 况 误差 true true 
7.3 假定 存在 这 样 一 个 系统 ， 它 观察 用 户 看 电视 的 false true 
习惯 ,目的 是 向 该 用 户 推 荐 他 可 能 喜欢 的 电视 false false 
节目 。 每 个 节目 均 由 下 列 特征 描述 : 是 否 是 喜 false false 
B? 有 医生 吗 ? 有 律师 吗 ? 有 枪支 外? 给 定 如 |” iN 
7-18 所 示 的 关于 用 户 是 否 喜欢 电视 节目 的 |” = 
样本 ， 我 们 的 目标 是 利用 这 些 数 据 学 习 特 征 和 Slee 
Likes 的 值 ( 即 基于 电视 节目 的 特征 预测 用 户 喜 | true true 
欢 哪个 电视 节目 )。 true false 
你 可 以 在 网 站 AIspace. org 上 找到 关于 该 false false 

作业 的 有 用 的 小 程序 。( 在 开始 之 前 ， 看 看 你 图 7-18 习题 7. 3 的 训练 样本 


是 否 能 够 找 出 用 户 喜 欢 的 电视 节目 的 规律 .) 

(a) 采用 绝对 误差 ， 给 出 只 有 一 个 节点 ( 即 无 分 裂 ) 的 最 优 决 策 树 。 该 决策 树 的 误差 是 多 少 ? 

Cb) 采用 平方 和 误差 ， 求 解 与 (a) 相 同 的 问题 . 

(Cc) 采用 绝对 误差 ， 给 出 深度 为 2( 即 根 节点 是 唯一 的 有 和 孩子 的 节点 ) 的 最 优 决策 树 。 对 于 树 中 的 每 
个 叶子 节点 ,给 出 经 过 滤 到 达 该 节点 的 样本 。 该 决策 树 的 误差 是 多 少 7 

(d) 采用 平方 和 误差 ,求解 与 (c) 相 同 的 问题 

Ce) 正确 分 类 所 有 训练 样本 的 最 小 决策 树 是 什么 ? 自 顶 向 下 每 一 步 优 化 信息 增益 的 决策 树 与 正确 分 
类 所 有 训练 样本 的 最 小 决策 树 表示 相同 的 函数 吗 ? 

D 给 出 两 个 不 在 图 7-18 中 的 样 例 ， 并 展示 如 何 应 用 最 小 决策 树 对 该 样 例 进 行 分 类 。 然 后 解释 决策 
树 疾 有 的 学 习 偏 置 。( 偏 置 是 如 何 指导 这 些 特定 预测 的 ?) 

(g) 这 个 数据 集 是 线性 可 分 的 吗 ? 解释 原因 。 

343| 7.4 考虑 如 图 7-5 所 示 的 决策 树 学 习 算法 和 如 图 7-1 所 示 的 数据 。 假 定 停止 的 准则 是 所 有 样本 的 分 类 不 

再 发 生变 化 。 如 图 7-4 所 示 的 决策 树 是 通过 选择 具有 最 大 信息 增益 的 特征 作 分 裂 而 构建 的 。 问 题 是 

考 虚 当选 择 不 同 的 特征 作 分 模 时 会 发 生 什 么 。 

(a) 改变 算法 使 得 总 是 选择 特征 列表 中 的 第 一 个 元 素 作 分 裂 。 当 特征 按 顺 序 [LAuthor,，Thread， 
Length, WhereRead | 排列 时 生成 的 决策 树 是 什么 ? 与 选择 具有 最 大 信息 增益 的 特征 作 分 裂 得 到 
的 决策 树 相 比 ， 新 的 决策 树 表 示 一 个 不 同 的 函数 吗 ? 解释 原因 。 

(b》 当 特征 按 顺 序 [WhereRead，Thread，Length，Author] 排 列 时 生成 的 决策 树 是 什么 ?与 选择 具 
有 最 大 信息 增益 的 特征 作 分 裂 得 到 的 决策 树 相 比 或 与 (a) 中 的 决策 树 相 比 ， 新 的 决策 树 表示 一 
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个 不 同 的 函数 码 ? 解释 原因 。 

(ce) 是 否 存在 这 样 的 一 棵 决策 树 : 它 正确 分 类 了 训练 样本 ， 但 与 采用 前 面 的 算法 得 到 的 决策 树 相 比 
却 表 示 一 个 不 同 的 函数 ? 如 果 有 ， 给 出 这 样 的 决策 树 ; 如 果 没 有 ， 解 释 原 因 。 

考虑 式 (7. 1) ， 它 给 出 了 线性 预测 的 误差 。 

(a) 当 2 一 1( 即 只 有 一 个 输入 特征) 时 ， 给 出 最 小 化 误差 时 的 权 值 计算 公式 。( 提 示 : 对 每 一 个 权重 
变量 求 导 ， 并 令 其 为 0。) 

Cb) 当 n 取 任意 值 时 ,给 出 最 小 化 误差 时 的 权 值 的 计算 公式 集 。 

(c) 当 使 用 sigmoid 线性 函数 (激活 函数 为 sigmoid 或 logistie 函数 的 扁 线 性 函数 ) 时 ,为 什么 解析 地 
最 小 化 误差 是 困难 的 ? 

假定 对 于 神经 网 络 的 输出 ， 我 们 规定 大 于 0.5 的 值 为 真 ， 小 于 0. 5 的 值 为 假 ( 在 输入 激活 函数 之 前 ， 

任意 正 数 为 真 、 负 数 为 假 )。 

对 于 具有 两 个 隐藏 节点 的 神经 网 络 ， 在 如 图 7-9 所 示 的 数据 上 运行 AIspace. org 上 的 神经 网 络 学 习 

小 程序 。 获 得 最 终 的 参数 值 后 ， 给 出 一 个 表示 布尔 函数 的 逻辑 公式 (或 一 棵 决策 树 或 一 个 规则 的 集 

合 )， 其 中 的 布尔 函数 计算 隐藏 节点 和 输出 节点 的 值 。 该 公式 或 规则 集 不 应 是 任意 实数 。 

(im: ARI RRA: 对 于 每 一 个 隐藏 节点 ， 检 查 输 人 值 的 16 种 组 合 ; 然后 确定 输出 的 真 

正 值 。 更 好 的 方法 是 设法 理解 函数 本 身 。) 

神经 网 络 学 得 了 与 决策 树 相同 的 函数 吗 ? 

确定 决策 树 的 空间 大 小 。 假 定 学 习 问 题 中 存在 个 二 元 特征 。 总 共有 多 少 棵 不 同 的 决策 树 ? 这些 决 

策 树 表 示 了 多 少 个 不 同 的 函数 ” 两 棵 不 同 的 决策 树 可 能 会 导致 相同 的 函数 吗 ? 

扩展 如 图 7-5 所 示 的 决策 树 学 习 算 法 ， 使 得 可 以 表示 多 值 特征 ， 并 返回 决策 树 的 规则 形式 。 

需要 克服 的 一 个 问题 是 ， 如 和 何 处 理 没 有 样本 与 所 选 特征 的 特定 值 相符 的 情形 。 此 时 ， 你 必须 作出 一 

个 合理 的 预知 。 

如 图 7-5 所 示 的 决策 树 学 习 算 法 在 特征 用 完 后 必须 停止 ， 即 使 并 非 所 有 的 样本 在 分 类 上 取得 一 致 。 

假定 你 正在 构建 一 棵 决策 树 ， 且 到 达 了 这 样 一 个 阶段 : 已 经 没有 剩余 特征 可 用 于 分 裂 ， 但 训练 集中 

还 有 nn 个 正 类 样本 和 m 个 负 类 样本 没有 处 理 完毕 。 此 时 有 3 种 建议 的 策略 可 用 : 

i) i BS REAR PEUR mm ny, WGK true; WR n <n, WIKRE) false; 如 果 如 果 m= 

no， 则 返回 true W false 中 的 任意 一 个 。 

ii) 1 AH E m/m tn). 

i 返回 Gn 十 1)/ (no 十 nm +2), 

对 于 下 列 定义 的 误差 ， 上述 哪 种 策略 在 训练 集 上 的 误差 最 小 ? 解释 厚 因 。 

(a) FEAR AA true 和 0= fals) FRM MM (HO = true, 0= false 或 概率 值 ) 之 差 的 和 。 

Cb) 样本 的 值 (1=true 和 0= false) FRM MM (AO true, 0= false MAB ZEN EAA. 

Cc) Bete HG i 





7.10 ”关于 在 决策 树 搜索 中 选择 哪个 特征 进行 分 裂 的 问题 ， 除 了 如 7.3.1 节 所 述 的 最 大 化 信息 分 裂 的 方 


法 ， 另 一 种 可 选 的 启发 式 方法 是 使 用 Gini 指数 。 
一 个 样本 集 的 Gini 指数 (关于 目标 特征 了) 是 样本 集 不 纯 性 的 一 种 度量 : 


A. TOSENN {e € Eramples:uml(eY) = Val} | \? 
giniy (Examples) = 1 af Eeee] ) 


其 中 | (e€ Examples; valle, Y)=Val) | 是 特征 了 的 值 为 Val 的 样本 个 数 ，| Example | 是 所 有 样 
本 的 总 个 数 。Gini 指数 总 是 非 负 的 ， 仅 当 所 有 样本 具有 相同 特征 值 的 时 候 才 为 0。 当 样本 在 特征 
的 不 同 取 值 上 平均 分 布 时 ，Gini 指数 达到 最 大 值 。 

选择 哪个 特征 作 分 裂 的 启发 式 方法 是 : 选择 能 最 小 化 训练 样本 在 目标 特征 上 总 的 不 纯度 ( 即 所 有 时 
子 节点 不 纯度 的 和 ) 的 特征 。 

(a) 实现 使 用 Gini 指数 的 决策 树 搜索 算法 。 

(b) 尝试 在 一 些 数据 库 上 分 别 运行 基于 Gini 指数 的 算法 和 基于 最 大 化 信息 分 裂 的 算法 ， 看 看 哪个 
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7.14 


7.15 


结果 更 优 。 

(c) 找 出 一 个 样 例 数据 库 ， 使 得 基于 Gini 指数 的 算法 找到 一 个 与 基于 最 大 化 信息 增益 的 启发 式 算 
法 不 同 的 决策 树 。 对 于 这 个 数据 库 ， 哪 种 启发 式 算 法 更 优 ? 并 考虑 哪 种 启发 式 算 法 对 手头 的 
数据 更 为 敬 感 。 

Cd) 设法 找 出 一 个 样 例 数据 库 ， 使 得 基于 最 大 化 信息 分 裂 的 算法 比 基 于 Gini 指数 的 算法 更 为 敏感 。 
设法 找 出 另 一 个 样 例 数据 库 ， 使 得 基于 Cini 指数 的 算法 更 优 . GER: 尝试 极端 分 布 。) 

参考 例 7-18 的 说 明 ， 为 描述 决策 树 定义 一 种 编码 确保 每 一 种 编码 对 应 一 棵 决策 树 ( 对 于 足够 长 

的 二 进 制 位 序列 ， 初 始 的 分 段 将 描述 一 棵 唯一 的 决策 树 )， 每 一 棵 决策 树 都 有 一 种 编码 。 这 种 编码 

如 何 翻译 为 决策 树 上 的 先 验 分 布 ? 特别 的 ， 引 入 一 个 新 的 分 裂 有 多 大 的 可 能 性 必须 补偿 分 裂 的 先 

验 概 率 的 减少 值 ( 假 定 在 编码 中 小 的 决策 树 比 大 的 决策 树 更 易于 描述 )? 

说 明 梯 度 下 降 搜索 如 何 应 用 于 学 习 一 个 最 小 化 绝对 误差 的 线性 函数 。( 提 示 : 对 误差 做 实例 分 析 。 

除了 误差 为 0 的 情形 (此 时 不 必 进 行 更 新 操作 )， 该 误差 在 各 个 点 都 是 可 征 的 。) 

给 出 一 个 实例 ， 使 得 当 使 用 经 验 频 率 作 为 概率 时 ， 朴 素 贝 叶 斯 分 类 器 能 给 出 不 一 致 的 结果 。( 提 

示 : 你 需要 两 个 特征 ， 比 方 说 A 和 B， 和 一 个 值 域 为 {0，1}) 三 元 分 类 ， 比 方 说 C。 构 造 一 个 数据 

集 ， 其 中 经 验 频 率 为 Pla|C=0)=0 和 PC6|C==1) 一 0。) 什 么 样 的 观察 与 该 模型 不 一 致 ? 

在 如 图 7-1 所 示 的 数据 上 运行 AIspace. org 上 的 神经 网 络 学 习 器 。 

(a) 假定 你 决定 将 神经 网 络 的 任意 大 于 0. 5 的 预测 值 视 为 真 ， 小 于 0. 5 WMA. Baha Se 
误 分 的 样本 ? 40 次 选 代 之 后 又 有 多 少 被 误 分 的 样本 ? 80 次 选 代 之 后 呢 ? 

(b) 采用 相同 的 样本 和 相同 的 初始 值 ， 改 变 梯 度 下 降 搜 索 的 步 长 。 至 少 尝试 ?一 0, 1、7 一 上 L0 和 7 
三 5,0 三 种 情况 。 对 步 长 和 算法 收敛 之 间 的 关系 作出 评论 。 

(c) 找到 最 终 的 参数 值 之 后 ， 给 出 每 个 单元 计算 的 逻辑 公式 。 你 可 以 这 样 做 : 首先 考虑 每 个 单元 
输入 值 的 真 值 表 和 确定 每 一 个 组 合 的 输出 ， 然 后 约 简 公式 。 总 是 可 以 找到 这 样 的 公式 吗 ? 

(d) 不 同 的 参数 设 定 的 初始 值 是 不 同 的 。 如 果 为 所 有 的 参数 设 定 相 同 的 (随机 ) 值 ， 将 会 发 生 什 么 

情况 ? 在 其 他 的 数据 上 进行 相同 的 测试 ， 并 猜测 一 般 情况 下 会 发 生 什 么 。 

评论 神经 网 络 算法 的 下 列 停止 准则 ; 

iD 有 限 步 的 选 代 ， 其 中 有 限 步 数 是 初始 时 设 定 的 。 

ii) 平方 和 误差 小 于 0. 25。 解 释 为 什么 0. 25 可 能 是 一 个 合适 的 选择 。 

ii》 所 有 导数 的 绝对 值 均 小 于 ele 二 0)，。 

iv) 将 数据 划分 为 训练 集 和 测试 集 ， 当 在 测试 集 上 的 误差 增加 时 算法 停止 。 

你 期 望 哪 种 准则 更 好 地 处 理 * 过 拟 合 问题? 哪 种 准则 能 确保 梯度 下 降 靶 停止 搜索 ? 哪 种 准则 能 确 

保 如 果 停 止 搜索 ， 学 得 的 网 络 能 准确 地 对 测试 数据 进行 预测 ? 

神经 网 络 学 习 算 法 是 基于 每 个 样本 更 新 参数 值 的 。 为 了 准确 地 计算 导数 值 ， 应 该 在 观察 到 所 有 样 

本 之 后 才 进 行 参数 值 的 更 新 。 实 现 这 样 的 学 习 算 法 ， 并 与 增 量 算 法 进行 收敛 速度 和 算法 运行 速度 

方面 的 比较 。 

(a) 画 出 如 图 7-1 所 示 数 据 的 一 棵 kd 树 。 用 于 分 裂 的 最 优 特征 应 当 最 大 程度 上 将 样本 集 划分 为 大 
小 相同 的 两 类 。 假 定 你 知道 在 后 续 的 查询 中 不 会 出 现 特征 UserAcrion， 因 此 不 应 选 它 作 分 裂 。 
说 明 训 练 样本 分 别 位 于 哪个 叶子 节点 上 。 

Cb) 对 于 一 个 特征 Author, Thread, Length 和 WhereRead 的 值 分 别 是 unknown, new. long 和 
work 的 新 样本 ， 指 出 与 它 最 相似 的 训练 样本 在 决策 树 上 的 位 置 。 

(c) 基于 这 个 实例 ， 讨 论 从 刀 树 的 查找 表 会 返回 哪些 样本 。 这 为 什么 和 决策 树 的 查找 表 不 同 ? 

实现 一 个 将 训练 样本 存储 在 一 棵 kd 树 上 的 最 近邻 学 习 系 统 ， 使 用 那些 具有 不 同 最 小 特征 (这 些 特 

征 的 权重 是 均衡 的 ) 数 目的 近邻 样本 作 决 策 。 在 实践 中 这 种 方法 效果 如 何 ? 
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确定 性 规划 





人 们 每 天 早晨 都 会 为 一 天 的 行程 做 一 个 规划 ， 并 执行 这 个 规划 ， 这 个 规划 伴随 他 度 过 
一 天 天 忙 天 的 生活 。 如 果 事 先 不 做 这 个 规划 ， 就 只 能 根据 事件 发 本 的 几 府 随机 支配 时 间 ， 
那么 生活 很 快 就 会 陷入 混乱 。 





Victor Hugo(1802—1885) 


规划 是 Agent 如 何 实 现 其 目标 的 行动 方案 。Agent 要 完成 任何 事情 即使 是 实现 最 简单 
的 目标 ， 它 必须 推测 (考虑 ) 其 未 来 的 目标 。 因 为 Agent 通常 不 能 在 一 步 之 内 就 实现 其 目 
标 ， 所 以 它 在 任 一 时 刻 的 行为 取决 于 它 将 来 的 行为 。 而 它 将 来 的 行为 又 取决 于 现在 的 状 
态 ， 也 就 是 它 过 去 的 行为 。 本 章 介 绍 了 如 何 表 示 Agent 的 动作 以 及 执行 动作 后 所 产生 的 结 
R, UR Agent 如 何 用 这 些 模型 制定 一 个 规划 实现 其 目标 。 

本 章 主 要 考虑 以 下 几 种 情况 : 

。 Agent 的 行动 是 确定 性 的 ， 即 Agent 能 够 预测 它 的 行动 的 结果 。 

。 不 存在 超出 Agent 控制 的 改变 世界 状态 的 外 部 事件 。 

。 世界 是 完全 可 观察 的 ，Agent 可 以 观察 世界 的 当前 状态 。 

。 时 间 是 一 个 状态 到 另 一 个 状态 的 离散 推移 。 

* 目标 是 必须 实现 或 者 维护 的 状态 谓词 。 

在 后 面 章节 中 ， 这些 假设 条 件 有 所 放宽 。 


8.1 ” 状态、 动作 以 及 目标 的 表示 


为 了 要 推测 (考虑 ) 做 什么 ，Agent 必须 要 有 目标 、 某 个 世界 模型 ， 以 及 一 个 行动 结果 
模型 。 

确定 性 动作 是 状态 到 状态 的 一 个 部 分 函数 。 之 所 以 是 部 分 函数 ， 是 因为 在 每 一 个 状态 
下 不 是 每 个 动作 都 会 执行 。 例 如 ， 机 器 人 如 果 不 
在 物体 的 附近 ， 那 么 它 就 不 能 执行 拿 起 这 个 物体 
的 动作 。 动 作 的 先决 条 件 (precondition) 是 指 何 
时 能 够 执行 这 个 动作 ， 而 动作 的 影响 (effect) 是 
指 执 行动 作 后 产生 的 状态 ， 即 结果 状态 。 

【 例 8-11 考 志 传送 邮件 和 咖 罪 的 传送 机 器 
人 世界 。 假 设 一 个 简单 的 环境 有 4 个 位 置 ， 如 





图 8-1 所 示 。 机 器 人 Rob 可 以 在 咖啡 店 买 咖啡 ， 描述 状态 的 特征 动作 

在 收发 室 取 朗 件 ， 移 动 ， 还 可 以 传送 咖啡 和 节 ”RZoc-Reb 的 位 是 me- 硕 时 针 移 动 
件 。 把 咖啡 送 到 Sam 的 办 公 室 的 动作 将 会 中 止 ”ANC-Reb 是 否 有 内 mee BBA 
Sam 想 要 咖啡 的 动作 。 收 发 宣 有 要 送 往 Sam 办 MERA es 

公 室 的 邮件 。 这 个 环境 非常 简单 ， 但 是 也 足够 说 ”REM-Rob 是 否 有 邮件 pum- 取 邮件 
明 表示 动作 方面 以 及 规划 中 的 许多 问题 了 . dni 


状态 可 描述 为 以 下 特征 : 图 8-1 传送 机 器 人 领域 


349 


230 PEART ”学习 与 规划 


© 机 器 人 的 位 置 C(RLoc) 可 以 是 咖啡 店 (cs)、Sam 的 办 公 室 (off)、 收 发 室 (mr) 或 者 

实验 室 (1a5) 中 的 某 个 。 

机 器 人 是 否 有 了 咖 罪 (RHC): rhe 表示 Rob 有 咖啡 ， rhc 表示 Rob 没有 咖啡 。 

Sam 是 否 想 要 咖啡 CSWC) : swe 表示 Sam 想 要 咖 罪 ，swc 表 示 Sam 不 想 要 咖啡 。 

收发 室 是 否 有 邮件 CMW) : mw 表示 有 邮件 ，mw 表 示 没 有 邮件 。 

机 器 人 身上 是 否 有 邮件 (RHM)，rhm 表示 机 帘 人 身上 有 邮件 ，rhm 表 示 机 器 人 身 

上 没有 邮件 。 

人 Rob 有 6 个 动作 ; 
Rob 可 以 顺 时 针 移 动 (zc) 。 

。 Rob 可 以 道 时 针 移 动 (mce)。 

。 Rob 在 咖啡 店 可 以 拿 起 咖啡 。puc 表示 Rob 拿 起 咖啡 ， 它 的 前 提 条 件 是 不 cARLoc 一 
cs， 也 就 是 说 当 Rob 的 位 置 是 cs 并 且 身 上 还 没有 咖啡 的 状态 下 可 以 拿 起 咖啡 。 这 
个 动作 的 结果 就 是 使 得 RHC 为 真 。 它 不 会 影响 其 他 的 特性 。 

。 如 果 Rob 拿 着 咖啡 并 且 在 Sam 的 办 公 室 ，Rob 就 可 以 递送 咖啡 。dc 表示 Rob 递 
咖啡 ， 它 的 前 提 条 件 是 rhe 人 RLoc 二 of 。 这 个 动作 的 结果 就 是 使 得 RHC 为 真 并 


H SWC 为 假 。 
。 WẸ Rob 在 收发 室 并 且 收 发 室 有 邮件 ，Rob 就 可 以 取 邮 件 了 。pum 表示 Rob W 
邮件 。 
。 如 果 Rob 拿 着 邮件 并 且 在 Sam 的 办 公 室 ， 那 么 它 就 可 以 递 邮 件 了 。dm 表示 Rob 
递 邮 件 。 
假设 Rob 在 一 个 时 间 内 只 能 执行 一 个 动作 ， 并 且 假 定 一 个 低层 的 控制 器 可 以 执行 这 些 
动作 。 4 


8.1.1 显 式 状态 空间 表示 法 


一 种 表示 动作 的 结果 和 先决 条 件 的 方法 是 显 式 地 列举 出 每 一 个 状态 ， 以 及 每 一 状态 下 
可 能 执行 的 动作 ， 对 每 一 个 状态 -动作 对 ， 列 出 在 这 一 状态 下 执行 这 个 动作 后 所 到 达 的 状 
态 。 这 需要 下 面 这 样 的 一 个 表格 : 





这 个 关系 表 中 的 第 一 行 元 组 表示 状态 s 时 可 能 执行 动作 acis:， 如 果 状 态 s 下 执行 了 
动作 actarz ， 那 么 结果 状态 将 是 sw 。 

因此 ， 这 就 是 以 图 的 形式 显 式 地 表示 动作 ， 称 为 状态 空间 图 (state-space graph). 第 3 
章 用 过 此 类 图 。 

【 例 8-2】 在 例 8-1 中 ， 状 态 由 一 个 五 元 组 表示 : 指定 了 机 器 人 的 位 置 ， 机 器 人 是 否 有 咖 
HE, Sam 是 否 想 要 咖啡 ， 收 发 室 是 否 有 邮件 ， 机 器 人 身上 是 否 有 邮件 。 例 如 ， 元 组 

(lab srhe vy swe »mrw srhm ) 

表示 状态 : Rob 在 实验 室 ，Rob 没有 咖啡 ，Sam 想 要 咖啡 ， 收 发 室 没有 邮件 ，Rob 身 
上 有 邮件 。 
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(lab yrhc swe »mmwsrhm ) 

表示 状态 : Rob 在 实验 室 ， Rob 拿 着 咖啡 ，Sam 想 要 咖啡 ， 收 发 室 有 邮件 ，Rob 身上 没有 
邮件 。 

在 这 个 例子 中 ， 总 共有 4X2X2X2X2=64 个 状态 。 直 观 上 ， 这 些 状态 几乎 都 可 以 实 
现 ， 即 便 你 不 相信 一 个 智能 机 器 人 能 够 达到 其 中 茶 些 状态 。 

下 面 有 6 个 动作 ， 但 不 是 每 个 状态 下 的 所 有 这 些 动 作 都 是 可 行 的 。 

这 些 动 作 按照 状态 转移 的 形式 定义 如 下 : 





«mr, rhe, swe, mw, rhm) 


(off, rhe, swe, mws rhm) 


(offs rhes swe, mw, rhm) 
(es, rhc, swe, mw, rhm) 


(lab, rhc, swe, mw, rhm} 





这 个 表格 显示 了 两 个 状态 之 间 的 转换 。 完 整 的 问题 表示 还 包括 其 他 62 个 状态 之 间 的 
转换 。 a 

这 种 表示 不 是 一 种 非常 好 的 表示 方法 ， 原 因 有 三 : 

*。 通常 有 太 多 状态 需要 表示 、 获 取 和 推理 。 

。 模型 很 小 的 改变 就 意味 着 表示 上 很 大 的 改变 。 模 型 男 一 特征 就 是 整体 表示 的 改变 。 
例如 ， 要 对 机 器 人 的 电力 层 建 模 ， 使 得 机 器 人 可 以 在 实验 室 进行 充电 ， 那么 所 有 
的 状态 都 要 调整 。 

。 通常 有 大 量 的 结构 和 行动 效果 的 规则 。 这 个 结构 可 以 使 得 对 动作 的 先决 条 件 、 结 
果 以 及 关于 它们 的 推测 的 表达 更 加 简洁 和 有 效 。 

一 种 方法 是 根据 动作 影响 特征 来 对 动作 的 结果 建 模 。 


8. 1.2 基于 特征 的 动作 表示 


基于 特征 的 动作 模型 表示 : 

。 根据 状态 的 特征 值 ， 判 断 一 个 状态 下 哪些 动作 是 可 能 的 ; 
。 当前 状态 和 动作 的 特征 值 如 何 影响 下 一 状态 的 特征 值 。 

某 一 动作 的 先决 条 件 是 在 执行 这 个 动作 前 必须 为 真 的 命题 。 按 照 约束 的 形式 ,约束 要 
求 机 器 人 只 能 选择 先决 条 件 为 真 的 动作 。 

例 8-3) 例 8-1 F, Rob 拿 起 咖啡 (puc) 的 动作 的 先决 条 件 是 cs Arhc， 也 就 是 说 ， 
Rob 必须 在 咖啡 店 (cs)， 并 且 身 上 上 没有 咖啡 (zc) 。 作 为 一 个 约束 条 件 ， 意 味 着 Rob 在 任 
何其 他 位 置 或 者 rhe 为 真 时 ， 动 作 puc 都 是 不 可 行 的 。 

顺 时 针 移 动 的 动作 总 是 可 能 的 ， 它 的 先决 条 件 为 真 。 < 

基于 特征 的 动作 表示 (feature-based representation of actions) 使 用 规则 来 为 动作 的 结 
果 状 态 的 变量 赋值 。 这 些 规 则 的 实体 可 以 包含 执行 的 动作 以 及 前 一 个 状态 的 特征 值 。 

规则 有 两 种 形式 : 

。 ARMM (causal rule) 指 定 一 个 特征 获得 一 个 新 值 的 时 间 ;} 

。 框架 规则 (frame rule) 指 定 一 个 特征 保留 其 自身 值 的 时 间 。 

将 这 两 种 情况 分 开 考 虑 是 很 有 用 的 : 什么 情况 使 得 该 特征 值 改变 ， 什 么 情况 又 使 得 该 
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特征 值 保持 不 变 。 

【 例 8-4】〗 例 8-1 中 ，Rob 的 位 置 取决 于 它 先前 的 位 置 以 及 它 向 哪个 方向 移动 。 令 
RLoc' 表 示 指 定 结 果 状 态 位 置 的 变量 。 下 面 的 规则 指定 了 Rob 在 咖啡 店 的 一 些 条 件 。 

RLoc’=cs<-RLoc=off \ Act=mec 

RLoc’=cs<-RLoc= mr A Act=mc 

RLoc’ =cs<-RLoc=es A Act=mee \ Act mc 
前 两 个 规则 是 因果 规则 ， 最 后 一 个 是 框架 规则 。 

机 器 人 在 结果 状态 中 是 否 有 咖啡 取决 于 它 前 一 个 状态 是 否 有 咖啡 以 及 它 的 动作 : 

rhe’ rhe A Act#dc 

rhc’ <Act= puc > 
其 中 第 一 个 是 框架 规则 ， 它 指定 机 器 人 一 直 拿 着 咖啡 直到 送出 咖啡 为 止 ， 这 个 规则 隐 含 地 
告诉 我 们 机 器 人 不 能 丢弃 或 者 遗失 咖啡 ， 而 且 咖 啡 也 不 能 被 偷 走 。 第 三 个 是 因果 规则 ， 指 
定 拿 起 咖啡 的 动作 导致 下 一 个 时 间 步 中 机 器 人 有 了 咖啡 。 < 

因果 规则 和 框架 规则 并 未 指定 一 个 动作 可 能 在 什么 时 间 发 生 , 这 是 由 动作 的 先决 条 件 
定义 的 。 


8.1.3 STRIPS 表示 法 


前 面 的 表示 方法 是 基于 特征 的 方法 ， 对 每 个 特征 都 有 规则 来 指定 它 的 值 ， 即 执行 动作 
后 到 达 的 状态 的 特征 值 。 另 一 种 方法 是 基于 动作 的 表示 ， 对 每 个 动作 指定 它 的 结果 。 
STRIPS 就 是 这 样 一 个 表示 方法 。STRIPS(STanford Research Institute Problem Solver). 
即 斯 坦 福 研究 所 问题 求解 系统 ， 是 用 在 机 器 人 Shakey 上 的 规划 程序 ，Shakey 是 第 一 个 用 
人 工 智能 技术 设计 的 机 器 人 。 

首先 ， 将 描述 世界 的 特征 分 为 原始 (primitive) 特征 和 导出 (derived) 特征 。 在 任意 给 定 状 
态 下 ， 确 定子 句 是 用 于 从 原始 特征 值 决定 导出 特征 值 。STRIPS 表示 方法 用 于 确定 某 一 状态 
下 原始 特征 的 值 ， 这 一 状态 是 基于 先前 的 状态 以 及 Agent 所 采取 的 动作 而 产生 的 。 

STRIPS 表示 法 基于 以 下 思想 : 大 多 数 的 事情 不 受 单一 动作 影响 。 对 每 一 个 动作 ， 
STRIPS 对 何 时 该 动作 可 能 发 生 以 及 该 动作 会 影响 哪些 原始 特征 进行 建 模 。 动 作 的 结果 依 
HF STRIPS 假设 : 所 有 在 动作 的 描述 中 没有 提 到 的 原始 特征 均 保 持 不 变 . 

某 一 动作 的 STRIPS 表示 由 以 下 两 部 分 组 成 : 

。 先决 条 件 是 特征 赋值 的 一 个 集合 ， 这 些 特征 在 这 个 动作 发 生 时 必须 为 真 。 

。 影响 是 执行 动作 后 而 发 生 改 变 的 原始 特征 的 结果 赋值 集合 。 

WR V=v 在 动作 act 的 结果 列表 上 ， 或 者 act 的 结果 列表 上 没有 提 到 特征 V， 并 且 在 
执行 动作 act 之 前 V WA. 那么 执行 动作 act 后 原始 特征 V 的 值 为 w。 每 次 的 非 原始 特 
征 值 可 以 通过 原始 特征 值 导出 。 

当 变 量 是 布尔 型 时 ， 将 结果 分 为 删除 表 (delete list) ( 值 为 假 的 变量 集合 ) 和 添加 表 (add 
list) ( 值 为 真 的 变量 集合 )。 

【 例 8-5] 例 8-1 中 ，Rob 拿 起 响 罪 的 动作 (puc)Y 有 如 下 STRIPS 表示 : 

先决 条 件 : Les, rhe] 

影响 : [rhc] 

也 就 是 说 ， 机 器 人 必须 在 咖啡 店 ， 并 且 没 有 吻 啡 。 该 动作 之 后 ， 得 到 rhe CM rhe= 
true), ， 面 其 他 的 特征 值 没 有 受到 该 动作 的 影响 。 < 

【 例 8-6) 递 咖啡 的 动作 (4c) 可 以 定义 为 : 

先决 条 件 : Loff. rhc] 
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影响 ; [rhe, swe] 

BL tit A EDD Zo FF BS A TE AT AE, 不管 Sam 想 不 想 要 咖啡 它 都 可 以 递 
咖啡 。 如 果 在 该 动作 之 前 Sam 想 要 咖啡 ， 那么 之 后 Sam 就 不 想 要 了 。 因 此 ， 动作 的 结果 
使 得 RHC= false H SWC= false. 4 

基于 特征 的 表示 方法 相对 于 STRIPS 表示 法 更 强大 ， 因 为 它 可 以 表示 STRIPS 中 所 有 
可 以 表示 的 内 容 。 但 是 却 相 对 更 宛 长 ， 因 为 它 需 要 显 式 的 框架 公理 ， 而 这 些 公 理 是 隐 含 在 
STRIPS 表示 中 的 。 

某 一 动作 集合 的 STRIPS 表 示 可 以 转化 成 基于 特征 的 表示 ， 如 下 所 示 。 如 果 动 作 act 
HERIR AC e s els STRIPS 表示 等 价 于 因果 规则 : 

€; = act 

这 个 动作 使 得 所 有 e 为 真 ， 而 框架 规则 : 

c 4c A act 

其 中 的 每 个 条 件 c 都 不 包含 结果 列表 里 的 任 一 变量 。 这 两 个 表示 法 中 ， 每 个 动作 的 先 
决 条 件 都 是 一 样 的 。 

有 条 件 的 影响 (condition effec 是 动作 的 一 个 影响 ， 它 依赖 于 其 他 特征 的 值 。 基 于 特 
征 的 表示 法 可 以 指定 条 件 影响 ， 而 STRIPS 表示 法 却 不 能 直接 表示 这 些 。 

【 例 8-7] 考虑 动作 m 的 表示 方法 。mc 的 结果 取决 于 执行 动作 前 机 器 人 的 位 置 。 

基于 特征 的 表示 如 例 8-4 所 示 。 

为 了 用 STRIPS 表示 法 表示 动作 we， 构造 了 多 维 动作 (不 同 于 先前 初始 值 为 真 的 动作 ) 。 
例如 ，?nc_cs( 从 咖啡 店 顺 时 针 移动 ) 的 先决 条 件 是 REoc=cs， 结 果 是 RLoc=off . < 


8.1.4 初始 状态 和 目标 


在 传统 的 规划 问题 中 ， 世 界 是 完全 可 观察 和 确定 的 ， 初 始 状态 通过 指定 初始 时 刻 每 个 
特征 的 值 来 定义 。 

有 两 类 目标 : 

。 实现 目标 (achievement goal) :最终 状 态 的 命题 必须 为 真 。 

。 维护 目标 (maintenance goal): Agent 经 过 的 每 个 状态 必须 为 真 命 题 。 这 些 通常 是 

安全 目标 (safety goal) 远离 不 好 状态 的 目标 。 

也 有 一 些 其 他 类 型 的 目标 ， 比 如 有 瞬时 目标 (在 规划 中 的 某 处 必须 实现 ， 但 是 不 需要 维持 到 
最 后 ) 或 者 资源 目标 (例如 希望 消耗 最 少 的 能 量 或 者 运行 时 间 ) 等 。 


8.2 前 向 规划 


确定 性 的 规划 (plan) 是 从 一 个 给 定 的 初始 状态 到 达 菜 一 目标 (goal) 的 动作 序列 。 确 定 
性 的 规划 器 (planner) 是 能 够 产生 规划 的 问题 求解 程序 。 规 划 程 序 的 输入 是 初始 的 世界 描 
述 、Agent 的 可 行动 作 说 明 以 及 目标 描述 。 说 明 中 包括 动作 的 先决 条 件 和 影响 。 

其 中 一 种 最 简单 的 规划 策略 是 把 规划 问题 看 成 是 状态 空间 图 中 的 一 个 路 径 规划 问题 。 
在 状态 空间 图 中 ， 节 点 表示 状态 ， 弧 表示 从 一 个 状态 转移 到 另 一 个 状态 时 所 对 应 的 动作 。 
一 个 状态 s 的 所 有 出 弧 对 应 这 个 状态 下 可 以 执行 的 所 有 的 合法 动作 。 也 就 是 说 ， 对 每 个 状 
AS s 以 及 状态 ; 下 先决 条 件 为 真 的 每 个 动作 a 都 有 一 条 对 应 的 弧 ， 并 且 结 果 状 态 并 不 破坏 
维护 目标 。 规 划 是 从 初始 状态 到 达 目 标 状态 (满足 实现 目标 的 状态 ) 的 一 条 路 径 。 

前 向 规划 器 (forward planner) 是 指 从 状态 空间 图 的 初始 状态 开始 搜索 直到 到 达 一 个 目 
标 状 态 (满足 目标 描述 的 状态 )。 它 可 以 使 用 第 3 章 介绍 的 任何 一 种 搜索 策略 进行 搜索 。 
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【 例 8-8】 图 8-2 表示 的 是 搜索 空间 的 一 部 分 ， 其 初始 状态 为 : Rob 在 咖啡 店 ，Rob 
没有 咖啡 ，Sam 想 要 咖啡 ， 收 发 室 有 邮件 ，Rob 身上 没有 邮件 。 不 论 目标 状态 如 何 ， 搜 索 
空间 都 是 一 样 的 。 


cs= UAE SE -一 — 

of= 办 公 室 <es, rhe, swe, mw, rhm> 
lab=3 4 

rhc=Robot 有 咖啡 puc ie bared 


<es, rhe, swe, mw, rhm> <off. rhe, swe, mw, rhm> <mr, rhe, swe, mw, rhm> 


mc mec me mec 


<off, rhc, swe, mw, rhm> <lab, rhe, swe, mw, rhm> 
cs, rhe, swe, mw, rhm? 
de a 
n <mr, rhe, swe, mw, rhm> 


me 


<off, rhe, swe, mw, rhm> mec 


<lab, rhe, swe, mw, rhm> 
<es, rhc, SWC, mw, rhm> 


图 8-2 状态 空间 规划 程序 的 部 分 搜索 空间 < 


使 用 前 向 规划 程序 不 同 于 产生 显 式 的 基于 状态 的 动作 表示 ， 因 为 图 的 相关 部 分 可 以 从 
动作 的 表示 中 动态 产生 。 

通过 一 个 完整 的 搜索 策略 ， 例 如 带 有 多 路 径 剪 枝 或 者 迭代 深化 搜索 的 A 算法， 一定 
能 够 找到 一 个 解 。 搜 索 空 间 的 复杂 度 由 状态 空间 图 的 向 前 分 支 因 子 定义 。 分 支 因 子 是 任 一 
状态 下 所 有 可 能 动作 的 集合 ， 可 能 非常 大 。 对 于 简单 的 机 器 人 传送 领域 ,初始 状态 时 分 支 
因子 是 3， 其 他 情况 下 至 多 是 4。 领 域 空间 变 大 时 ， 分支 因子 增 大 ， 这 会 导致 搜索 空间 爆 
炸 。 找 到 某 种 好 的 启发 式 方法 可 能 会 降低 复杂 度 ( 见 习题 8.6), 但 是 这 个 启发 式 算 法 必须 
足够 好 并 且 能 够 克服 组 合 爆炸 问题 。 

一 个 状态 可 以 表示 为 : 

(a) 完 整 的 世界 描述 ， 即 对 每 个 原始 命题 的 赋值 或 者 作为 定义 状态 的 一 个 命题 。 

(pb) 从 某 个 初始 状态 出 发 的 一 条 路径 ， 即 从 初始 状态 到 达 该 状态 的 一 个 动作 序列 。 这 
样 ， 未 来 的 状态 可 以 从 指定 动作 结果 的 公理 中 推导 出 来 。 

为 每 个 被 创造 的 世界 计算 一 个 全 新 的 世界 描述 ， 或 者 计算 一 个 世界 必要 时 的 组 成 ， 这 
两 者 的 区 别 相当 于 表达 (a) 与 表达 (b) 间 的 区 别 。(b) 使 用 的 空间 相对 较 小 《特别 是 针对 一 个 
复杂 的 世界 描述 )， 而 且 可 以 更 快 地 创建 一 个 新 节点 ,但 是 在 确定 任 一 给 定 世 界 的 未 来 情 
况 时 比较 慢 。(b) 还 有 一 个 缺陷 ， 就 是 在 确定 两 个 状态 是 否 一 致 时 比较 耗 时 (例如 ， 循 环 检 
测 或 多 路 径 剪 枝 ) 。 

作为 一 个 前 向 搜索 方法 ， 我 们 已 经 介绍 了 状态 空间 搜索 ， 但 是 也 可 以 从 满足 目标 的 状 
态 集合 向 后 进行 搜索 。 然 而 初始 状态 通常 是 完全 可 确定 的 ， 所 以 前 沿 可 从 单一 的 状态 开 
始 。 但 目标 通常 不 能 完全 指定 一 个 状态 ， 以 致 将 会 有 很 多 目标 状态 满足 目标 。 这 就 意味 
着 ， 前 沿 状态 空间 初始 化 时 会 非常 大 。 因 此 ， 状 态 空间 的 向 后 搜索 经 常 是 不 切实 际 的 。 
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8.3 回归 规划 


在 不 同 的 搜索 空间 上 进行 搜索 往往 会 取得 更 好 的 效果 ， 在 该 搜索 空间 内 节点 不 是 状态 
而 变 成 要 实现 的 目标 。 一 旦 将 这 个 问题 转化 为 一 个 搜索 问题 ， 便 可 以 使 用 第 3 章 的 任何 一 
种 算法 。 我们 只 考虑 实现 目标 而 不 考虑 维护 目标 (见习 题 8. 9)。 

回归 规划 (regression planning) 的 搜索 是 在 图 中 进行 的 ， 该 图 定义 如 下 : 

。 节点 是 一 定 要 实现 的 目标 。 一 个 目标 是 ( 某 些 ) 特 征 的 一 个 赋值 集合 。 

。 弧 相当 于 动作 。 特 别 的 ， 从 节点 g 到 g 标记 动作 act 的 一 条 弧 ， 表 示 act 是 实现 目 
he 之 前 执行 的 最 后 一 个 动作 ， 而 节点 g' 是 紧 接 着 act 之 前 必须 为 真 的 目标 ， 以 
fi act 之 后 g AH. 

。 开始 节点 是 要 实现 的 目标 ， 假 设 它 是 特征 的 一 个 赋值 集合 。 

*。 如 果 初 始 状态 g 的 所 有 元 素 的 值 为 真 ， 那 么 搜索 的 目标 条 件 goal(g) 为 真 。 

已 知 一 个 节点 表示 目标 g， 对 于 如 下 动作 act，g 的 邻居 节点 是 存在 的 : 

。 act 是 可 能 的 (possible) : act 是 可 能 会 被 执行 的 ， 并 且 ac 执行 之 后 g 为 真 。 

。 act 是 有 用 的 (useful): act 能 实现 部 分 5。 

沿 着 带 有 动作 act IRR ER g 的 邻居 节点 是 g& ， 由 最 弱 先 决 条 件 定义 。 在 动作 

act 之 后 目标 g 采用 的 最 弱 先 决 条 件 (weakest precondition) 是 一 个 这 样 的 目标 g: 

。 act 之 前 g 为 真意 味 着 紧 接着 act Zag JA. 

*。 g 是 “最 弱 的 "， 即 是 任何 满足 第 一 条 件 的 命题 必须 隐 含 g 。 这 个 排除 了 一 些 不 必 
要 的 条 件 ， 如 先决 条 件 中 一 些 不 必要 的 条 件 。 

如 果 对 于 给 定 的 任 一 变量 至 多 赋 一 个 值 ， 那么 变量 的 一 个 赋值 集合 是 相 容 的 (consis- 

ent)。 也 就 是 说 ， 如 果 给 任何 一 个 变量 赋 两 个 不 同 的 值 那么 就 会 蚌 不 相 容 的 。 

假设 考虑 目标 节点 g= 二 {Xi 二 ww，…，X, 二 %}。 已 知 基于 特征 的 动作 表示 方法 ， 考 虑 

计算 一 个 节点 的 邻居 节点 。 如 果 存 在 一 个 因果 规则 执行 动作 act 获得 Xi 一 w， 那 么 动作 
act 是 有 用 的 。 弧 act 上 这 个 节点 的 邻居 节点 是 命题 : 
precondition(act) A body(X, =v, ,act) A = A body(X,, =v, ract) 
body(X; 二 v，act) 是 一 个 规则 实体 中 变量 的 赋值 集合 ， 这 个 规则 指定 动作 act 之 后 Xi 二 
vu 为 真 。 如 果 对 于 某 些 i 没 有 对 应 的 规则 ， 或 者 命题 是 不 相 容 的 ( 即 对 一 个 变量 赋予 不 同 的 
值 );， 则 没有 该 邻居 。 注 意 ， 如 果 同 一 动作 有 多 个 可 行 的 规则 ， 那 么 就 会 存在 多 个 邻居 。 

对 于 STRIPS 表示 ， 对 于 某 些 KH. WRX =v 是 动作 act 的 结果 ， 则 act 对 于 解 
eg 是 非常 有 用 的 。 除 非 对 于 act 存在 着 结果 X =y, Hga XS, HP vi Av, 
那么 动作 act 是 可 能 发 生 的 。 执 行动 作 act 之 前 ，act 的 先决 条 件 和 任何 通过 acz 不 能 达到 
WH X= os 都 必须 被 保留 o 

这 样 ， 只 要 其 为 相 容 的 ， 弧 act 上 目标 g 的 相 邻 节点 为 : 

precondition(act) U (g\ef fects (act)))} 

【 例 8-9】 假设 目标 是 实现 swc， 开始 节 点 是 [swcj。 如 果 在 初始 状态 时 就 为 真 ， 则 规 

划 终 止 。 和 否则 ， 选 择 一 个 动作 来 实现 sac。 这 种 情况 下 ， 只 有 动作 dc 满足 条 件 。 而 dc 的 
先决 条 件 是 of Arheo, AKA —-RM: [swe], Loff» rhc] tie de. 

考虑 节点 Loff ，rhc]。 有 两 个 动作 能 够 实现 off» BI mc_cs 和 mcc_lab。 有 一 个 动作 能 

够 实现 rhc， 即 puc。 然 而 ，puc 有 一 个 先决 条 件 cs Arhe, {Aes Soff 是 不 相 容 的 (因为 变 
量 RLoc 有 不 同 的 赋值 ) 。 所 以 puc 不 是 最 后 一 个 可 能 动作 ， 即 执行 动作 puc 之 后 不 可 能 实 
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MAELO, rhe]. 

Al 8-3 显示 了 前 两 层 搜索 空间 (没有 多 路 径 剪 枝 或 者 循环 检测 )。 可 以 注意 到 ， 无 论 初 
始 状态 是 什么 ,搜索 空间 都 是 一 样 的 。 开 
始 状 态 有 两 个 角色 , 一 个 是 停止 条 件 ， 一 

359] 个 是 启发 式 算 法 的 一 个 源头 。 本 

下 面 这 个 例子 展示 了 回归 规划 是 如 何 
确定 最 后 一 个 动作 的 。 

【 例 8-10] 假设 目标 是 Sam AASB 
啡 ， 机 器 人 身上 有 咖啡 : Cswe, rhc], BUA 
一 个 动作 不 可 能 是 dc 来 实现 swwc ， 因 为 de 
会 实现 rhc 。 最 后 一 个 动作 一 定 是 puc KK 





现 rhc。 所 以 结果 目标 是 [swc，cs]。 同 样 ， 图 8-3 回归 规划 器 的 部 分 搜索 空间 
这 个 目标 之 前 的 最 后 一 个 动作 也 不 能 实现 swc， 因 为 它 有 一 个 先决 条 件 off， 而 off 和 cs 
是 不 兼容 的 。 因 此 ， 倒 数 第 二 个 动作 一 定 是 一 个 移动 动作 以 到 达 cs. Ei 


回归 规划 存在 一 个 问题 ， 某 个 目标 可 能 是 不 可 达 的 。 确 定 某 一 目标 集合 是 否 是 可 达 的 
通常 难以 从 动作 的 定义 中 推断 出 来 。 例 如 ， 你 应 该 知道 一 个 物体 不 可 能 同时 在 两 个 不 同 的 
地 点 。 有 时 候 这 些 并 不 能 明确 的 表示 出 来 而 只 能 隐 含 在 动作 的 结果 中 ， 而 事实 上 一 个 物体 
初始 时 只 能 在 一 个 位 置 上 。 要 实行 一 致 性 前 枝 ， 回归 规 划 程 序 可 以 使 用 领域 知识 对 搜索 空 
间 进 行 修剪 。 

循环 检测 和 多 路 径 前 枝 可 以 并 人 回归 规划 程序 中 。 回 归 规 划 程 序 没有 必要 访问 同一 节 
点 来 修 前 搜索。 如 果菜 一 节点 n 表示 的 目标 隐 含 通 向 7 的 路 径 上 的 一 个 目标 ， 那 么 就 可 以 
去 掉 节 点 n。 同 样 ， 多 路 径 藤 枝 见 习题 8.11. 

即使 没有 特别 的 理由 说 明 一 个 动作 必须 排 在 男 一 个 动作 之 前 ， 回 归 规 划 程 序 也 必须 是 针对 
于 某 一 特定 的 全 序 动作 。 如 果 动 作 之 间 相 互 影 响 很 小 ， 保 证 一 个 总 排序 势必 会 增加 搜索 空间 的 
复杂 性 。 例 如 ， 基 可 能 会 为 了 说 明 不 存在 成 功 的 排序 ， 而 对 一 个 动作 序列 检测 其 所 有 排序 。 


8.4 CSP 规划 


在 前 向 规划 中 ,搜索 受 初始 状态 的 限制 ， 只 能 使 用 目标 作为 一 个 停止 条 件 以 及 启发 式 . 
方法 的 一 个 源 。 在 回归 规划 中 ， 搜 索 受 目标 的 限制 ， 只 能 将 开始 状态 作为 一 个 停止 条 件 以 
及 启发 式 方法 的 一 个 源 。 在 同一 规划 中 ， 我 们 可 以 向 前 或 者 向 后 搜索 ， 通 过 使 用 初始 状态 
去 掉 那 些 不 可 达 的 节点 ,使 用 目标 去 掉 那 些 无 用 的 节点 。 这 个 可 以 通过 将 一 个 规划 问题 转 
化 成 一 个 约束 满足 间 题 ， 然 后 使 用 第 4 章 介绍 的 其 中 一 个 CSP 方法 来 实现 。 

对 于 CSP 表示 ， 以 特征 的 形式 描述 动作 也 是 有 用 的 ， 这 里 的 特征 即 对 动作 和 状态 的 
一 个 抽象 表示 。 表 示 动 作 的 特征 称 为 动作 特征 (action feature) ， 表 示 状 态 的 特征 称 为 状态 

特征 (state feature) 。 

11】 对 例 8-1 中 的 动作 进行 建 模 的 另 一 方法 是 : 每 一 步 ，Rob 可 以 选择 

是 否 拿 起 咖啡 。 令 PUC 是 一 个 布尔 变量 ,机 器 人 拿 起 咖啡 时 为 真 。 

。 是 否 递送 咖啡 。 令 DelC 是 一 个 布尔 变量 ， 机 器 人 递送 咖啡 时 为 真 。 

。 是 否 取 邮件 。 令 PUM 是 一 个 布尔 变量 ， 机 器 人 取 邮 件 时 为 真 。 

。 是 否 弟 邮件。 令 DelM 是 一 个 布尔 变量 ， 机 器 人 递 邮件 时 为 真 。 

。 是 否 移动 。Move 是 定义 域 {mc，mece，nm}) 上 的 一 个 变量 ， 依 次 表示 Rob 是 顺 时 

针 移动 、 逆 时 针 移动 还 是 不 移动 。 < 
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要 将 规划 问题 转化 成 一 个 CSP 问题 ， 首 先 需 要 选择 一 个 固定 的 时 域 (horizon) ， 即 规 
划 执 行 的 时 间 步 数 。 假 设 这 个 值 是 有 ，CSP 有 如 下 变量 : 
。 每 一 时 刻 每 个 状态 特征 对 应 一 个 变量 ， 时 间 步 从 0 Bk. MRA n RE. RA 
n(& 十 1) 个 这 样 的 变量 。 
* 每 一 时 刻 每 个 动作 特征 对 应 一 个 变量 ， 时 间 步 从 0 到 有 一 1]。 这 些 变量 称 为 动作 变量 。 
t 时 刻 的 动作 表示 这 个 动作 使 得 Agent 从 时 刻 * 时 的 状态 转移 到 时 刻 t 十 1 时 的 状态 。 
存在 以 下 几 种 约束 : 
。 状态 约束 (state constraint)， 同 一 时 间 步 内 变量 间 的 约束 。 这 些 可 以 包括 对 状态 的 
自然 约束 或 者 可 以 确保 禁止 那些 破坏 维护 目标 的 状态 。 
。 先决 条 件 约束 (precondition constraint), MAl¢ 状态 变量 与 动作 变量 之 间 的 约束 ， 
即 指定 某 一 状态 下 哪些 动作 是 可 能 的 约束 。 
。 影响 约束 (effect constraint)， 时 刻 z 的 状态 变量 、 时 刻 t 的 动作 变量 以 及 时 刻 t 十 1 
的 状态 变量 之 间 的 约束 ， 是 根据 t 时 刻 的 动作 以 及 状态 约束 1 十 1 时 刻 状 态 变量 的 
值 的 约束 。 
。 动作 约束 (action constraint) ， 指 定 哪 些 动作 不 能 同时 发 生 。 有 时 把 这 些 称 为 互 斥 
现象 或 者 互 斥 约束 (mutex constraint), 
。 初始 状态 约束 (initial-state constraint)， 对 初始 状态 的 约束 (时 刻 0) 。 这 些 约 束 限 
制 了 初始 状态 是 Agent 的 当前 状态 。 如 果 只 有 一 个 初始 状态 ， 那 么 它 可 以 表示 成 
时 刻 0 状态 变量 的 一 个 域 约束 集合 。 
。 目标 约束 (goal constraint)， 限 制 了 最 终 状 态 必 须 是 一 个 能 够 满足 实现 目标 的 状 
态 。 这 包括 最 后 一 步 的 目标 是 否 是 指定 值 ， 但 这 也 可 以 是 更 一 般 的 约束 一 一 例如 ， 
是 否 两 个 变量 的 值 必须 一 样 。 
【 例 8-12】 图 8-4 是 使 用 CSP 表示 的 某 机 器 人 传送 系统 ， 其 中 规划 时 域 为 2。 有 三 组 
状态 变量 : 时刻 0 的 初始 状态 ; 时 刻 1 的 状态 ; 时 刻 2 的 最 终 状 态 。 还 有 时 刻 0 和 时 刻 1 
的 动作 变量 。 





State, Action, State, Action, State, 
Move Robt FZI 
RLoc-Rob 的 位 置 
REC-Rob 有 咖啡 PUC Robie 
SWC Sami 320 HE DelC-Rob 递 咖啡 
MW 一 有 邮件 PUM-Rob 取 邮件 
RHM-Rob 有 邮件 DelM-Rob 递 邮件 


8-4 规划 时 域 为 2 的 传送 机 器 人 的 CSP 规划 
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在 这 个 例子 中 没有 域 约束 。 若 在 这 个 领域 以 下 内 容 为 真 ， 你 可 以 声明 一 个 约束 : Rob 
不 能 同时 拿 着 咖啡 和 上 邮件， 或 者 是 当 有 邮件 等 着 的 时 候 Rob 不 能 拿 着 邮件 。 这 个 例子 中 不 
包 合 这 些 。 

动作 左边 的 约束 是 先决 条 件 约束 ， 指 定 动作 变量 可 以 取 什 么 值 ， 即 对 每 个 动作 变量 来 
说 什么 动作 是 可 行 的 。 变 量 Move, 没有 先决 条 件 ， 即 所 有 的 移动 动作 在 任何 状态 下 都 是 可 
行 的 。 变 量 PUM;， 指 定 Rob 是 否 可 以 取 邮 件 ， 它 取决 于 zz 时刻 Rob 的 位 置 ( 即 RLoc, 的 
值 ) 以 及 i 时 刻 是 否 有 邮件 在 等 待 MW;)。 假 设 Agent 可 以 选择 不 执行 一 个 动作 ， 那 么 一 
个 动作 的 否定 总 是 可 行 的 (例如 ，PUM ,二 false, G it pum,), AA 4 RL BIE mr 并 且 MW== 
true 时 ， 动 作 PUM 一 true， 即 pum; 是 可 行 的 。 当 一 个 动作 的 先决 条 件 是 组 合 条 件 时 ， 它 
可 以 写成 一 个 约束 集合 ， 因 为 CSP 中 的 约束 是 隐 含 相连 的 。 如 果 先 决 条 件 是 更 复杂 的 命 
题 ， 它 可 以 表示 为 包括 多 于 两 个 变量 的 约束 。 

时 刻 1 以 及 时 刻 2， 状 态 变 量 左边 的 约束 表示 状态 变量 的 值 是 前 一 个 状态 和 动作 的 函 
数 。 例 如 ， 下 面 是 RHC:、DC;、PUC, 以 及 下 一 状态 机 器 人 是 否 有 咖啡 RECi+i 间 的 约束 : 








这 个 表 表 示 的 约束 与 例 8-4 规则 中 的 约束 相同 。 < 

【 例 8-13] 考虑 寻找 某 规 划 使 Sam 可 以 拿 到 咖啡 ， 规 划 时 域 为 2。 

初始 时 ，Sam 想 要 咖啡 但 是 机 器 人 没有 咖啡 ， 可 以 表示 为 两 个 域 约 束 : SWC, 和 
RHC,. Heit Sam 不 再 想 要 咖啡 ， 可 以 表示 为 域 约 束 SWC, 一 false。 

在 这 个 网 络 上 运行 弧 是 一 致 性 ， 其 结果 为 RLoco 王 cs(C 机 器 人 必须 在 咖啡 店 开 始 )， 
PUC, 二 true( 机 器 人 最 初 拿 起 咖啡 )，Mowveo 二 mrxc( 机 器 人 必须 向 办 公 室 方 向 移动 )，DOCi = 
true( 机 器 人 必须 在 时 刻 1 送出 咖啡 ) 。 < 

CSP 表示 法 假设 规划 时 域 是 固定 的 ( 即 一 个 固定 的 步 数 )。 要 找到 任意 步 数 的 规划 ， 这 
个 算法 可 以 运行 & 步 (k 二 0，1，2)， 直 到 找到 和解 。 对 于 随机 局 部 搜索 算法 ， 通 过 搜索 所 有 
的 时 域 人 从 0 到 2)， 并 且 人 允许 交 慢 慢 地 增加 ， 有 可 能 一 次 搜索 到 多 个 规划 时 域 。 当 使 用 
弧 的 一 致 性 以 及 搜索 求解 CSP 问题 时 ， 通 过 尝试 更 长 的 规划 时 域 也 可 能 不 会 获得 更 好 的 
结果 。 也 就 是 说 ， 通 过 对 为 什么 对 于 时 域 x 内 不 存在 解 的 分 析 ， 可 以 知道 对 于 多 于 nn 步 的 
范围 内 也 不 会 存在 任何 规划 。 这 使 得 在 没有 规划 时 会 暂停 规划 程序 。 见 习题 8. 12。 


8.5 偏 序 规划 


前 向 和 回归 规划 程序 在 规划 过 程 的 所 有 阶段 实行 的 都 是 动作 上 的 全 序 排序 。 而 CSP 
规划 程序 确保 执行 动作 的 具体 时 间 。 这 意味 着 ,那些 规 划 程 序 必须 提交 一 组 有 序 的 动作 ， 
当 把 这 些 动 作 加 入 一 个 偏 序 规划 时 ， 这 些 动作 是 不 能 同时 发 生 的 ， 即 使 没有 具体 的 原因 把 
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一 个 动作 放 在 另 一 个 动作 之 前 。 

偏 序 规划 (partial-order planner) 程 序 的 思想 是 动作 之 间 有 一 个 偏 序 排序 ， 并 且 执 行 时 
只 提交 动作 间 的 一 个 排序 。 有 时 也 称 为 非 线 性 规划 程序 (nion-linear planner)， 甚 实 这 个 说 
法 用 词 并 不 准确 ， 因 为 这 些 规划 程序 经 常 产 生 一 个 线性 规划 。 

偏 序 关系 是 一 种 小 于 关系 , 它 是 传递 的 且 不 对 称 的 。 偏 序 规划 是 一 个 动作 集合 连同 一 
个 偏 序 排序 。 这 个 偏 序 表 示 的 是 动作 间 的 “之 前 (before)”" 关 系 。 这 样 ， 任 何 一 个 符合 偏 序 
排序 的 动作 的 总 排序 集合 ， 都 能 从 初始 状态 求解 目标 状态 。 在 偏 序 中 如 果 动 作 acto 在 act, 
之 前 ， 就 记 为 acto 二 acti。 这 意味 着 动作 act 必须 发 生 在 act; 之 前 。 

为 了 统一 起 见 ， 把 start 和 finish 均 看 成 是 一 个 动作 。 其 中 ，start 初始 状态 时 为 真 ， 
finish 的 先决 条 件 是 要 求解 的 目标 。 伪 动作 start 在 所 有 其 他 动作 之 前 ，finish 在 所 有 其 他 
动作 之 后 。 这 样 ， 算 法 就 不 需要 考虑 初始 状态 和 目标 状态 的 特殊 情形 了 。 当 finish 的 先决 
条 件 满 足 时 ， 目 标 也 就 实现 了 。 

一 个 既 非 finish 又 非 start 的 动作 ， 将 会 出 现在 一 个 偏 序 规划 中 来 作为 某 一 动作 的 先 
决 条 件 。 规 划 中 动作 的 先决 条 件 或 者 初始 状态 时 为 真 ， 由 start 来 完成 ， 或 者 由 规划 中 的 
某 个 动作 来 完成 。 

我 们 必须 保证 为 动作 所 指定 的 先决 条 件 可 以 完成 。 规 划 中 动作 act, 的 每 一 个 先决 条 件 
P 都 会 有 一 个 动作 acto 与 它 相 关 ， 所 以 动作 acto 实现 acti 的 先决 条 件 已 。 表 示 为 一 个 三 元 
组 lacto。，P，acti)， 它 是 一 个 因果 关系 (causal link)。 这 个 偏 序 关系 指定 动作 acto REE 
acti 之 前 ， 记 为 acto 二 acti。 任 何其 他 的 使 得 P 为 假 的 动作 A 要 么 发 生 在 acto Zi, BA 
发 生 在 act, 之 后 。 

偏 序 规划 的 操作 步骤 大 致 如 下 : 以 动作 start, finish 以 及 偏 序 start< finish 开始 。 规 
划 程 序 维持 以 下 议程 : (P，A) 对 集合 ， 其 中 , A 是 规划 中 的 一 个 动作 ，P 是 必须 实现 的 
A 的 一 个 先决 条 件 原 子 。 初 始 时 ， 议 程 包含 对 4G，finish》， 其 中 G 是 在 目标 状态 时 必须 为 
真 的 一 个 原子 。 

在 规划 过 程 的 每 个 阶段 ， 从 议程 中 选 出 4G，aca 对， 其 中 P 是 动作 acii 的 先决 条 件 。 
然后 选择 一 个 动作 acto 来 实现 了 P。 这 个 动作 要 么 已 经 在 这 个 规划 中 ， 例如， 有 可 能 是 动作 
start; 要 么 是 即将 添加 到 规划 中 的 一 个 新 动作 。 这 个 偏 序 中 动作 acto 必须 发 生 在 act, 之 
前 。 然 后 增加 一 -个 因果 关系 来 记录 : ach 实现 act, 的 先决 条 件 已 。 规 划 中 删除 P 的 任何 动 
作 必 须发 生 在 acto 之 前 或 者 ach 之 后 。 如 果 act 是 一 个 新 动作 ， 那 么 就 将 它 的 先决 条 件 
添加 到 这 个 规划 中 。 程 序 持续 进行 直到 议程 为 空 。 

这 是 一 个 非 确定 的 过 程 ，“choose( 选 择 )” 以 及 “either…or( 或 者 ……… 或 者 )” 形 成 了 必须 
搜索 的 选择 ， 有 两 个 选择 需要 搜索 : 

。 选择 哪个 动作 来 实现 G, 

。 删除 G 的 动作 是 发 生 在 acto 之 前 还 是 act, 之 后 。 

图 8-5 给 出 了 偏 序 规划 算法 。 

函数 add_const(actp<act,, Constraints) AK acto Lact, 添加 到 Constrains， 并 返回 
约束 集 。 如 果 acto<act, 与 Constrains 不 兼容 ， 那 么 返回 值 为 假 。 有 许多 方法 可 以 执行 这 
个 函数 (见习 题 8. 13) 。 

函数 protect(lacto, G, acti), A), RWEBS Aach, EB AFact, 以 及 A 是 否 删 
除 G。 如 果 是 这 样 ， 要 么 添加 A 三 acto， 要 么 添加 achi <A 到 该 约束 集合 中 。 这 是 一 个 已 
进行 搜索 的 非 确 定性 选择 。 
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1; non-deterministic procedure PartialOrderPlanner(Gs) 
2 Inputs: 

3 Gs; 要 完成 的 原子 命题 集合 
4; Output; 

5: 为 完成 Gs 的 线性 规划 
6: Local; 

7 Agenda: (P, AWRA. PERT. ARDE 
8: Actions; 当前 计划 的 动作 集合 

9: Constraints: 动作 上 的 暂时 的 约束 集合 

10; CausalLinks; lact, P, act 元 组 的 集合 

ll: Agenda *={(G, fnish): GEGs} 

12; Actions := (start, fnish} 

13: Constraints *={start<. fnish) 

14: CausalLinks: =(} 





15: repeat 

16; 从 Agenda 中 选择 并 且 移 除 4G，acta 》 

17: either 

18; 选择 act, € Actions, H acto 完成 G 

19; or 

20; 选择 acto $ Actions, Fact, 完成 G 

21; Actions *= Actions U (act, } 

22; Constraints ‘=add_const(start<act,, Constraints) 
23: for each CLE CausalLinks do 

24; Constraints := protect(CL, acts, Constraints) 
25: Agenda ‘=AgendaU ((P, act): 了 是 act。 的 失 决 条 件 } 
26; Constraints *=add_const(act,<act,, Constraints) 
27; CausalLinks =CausalLinksU {(act,. G, act,)} 

28: for each AE Actions do 


29: Constraints *=protect(<act,, G, act,), A, Constraints) 
30; until Agenda={} 
return 符合 约束 的 动作 的 整体 顺序 


365 图 8-5 偏 序 规划 算法 


【 例 8-14】 考虑 目标 swc 人 mw， 初始 状态 为 : RLoc=lab, swe, rhc, mw, rhm, 
初始 议程 为 : 

(swe finish) , mw, finish) 

假设 选择 (swc，finish) 从 议程 中 删除 。 存 在 一 个 动作 可 以 实现 swc， 即 送出 咖啡 de, 


其 先决 条 件 是 off 和 rhc。 该 循环 (repeat loop) 结 束 后 ,议程 包括 : 
(off +de) », (rhe sde), (mw, finish) 


约束 是 {start< finish, start<dc, de< finish}, PERAR (dc, swe, finish), 
这 个 因果 关系 意味 着 不 允许 某 个 发 生 在 dc 之 后 或 者 finish 之 前 的 动作 取消 swwc 。 

假设 从 议程 中 选择 (mw，finish)。 动 作 pum 能 够 实现 它 ，pum 的 先决 条 件 是 mw 和 
RLoc= 二 mr。 将 因果 关系 (pum，mw，finish) 添 加 到 因果 关系 集合 中 ， 并 将 (mw，pum) 和 
《mr，pum) 添 加 到 议程 中 。 

假设 选择 (mw，pum)， 动 作 start 可 以 实现 mw， 因 为 mw 初始 时 为 真 。 将 因果 关系 
《start，mw，pum) 添 加 到 因果 关系 集合 中 。 议 程 中 不 做 任何 添加 。 

TRE, de 与 pum 之 间 没 有 强制 顺序 关系 。 

假设 从 议程 中 删除 ‘(o 凡 ，dc)。 有 两 个 动作 可 以 实现 off: ms_cs， 先 决 条 件 是 cs 
mcc_lab， 先 决 条 件 是 la6。 算 法 搜索 这 些 选项 。 如 果 选 择 了 mc_cs， 就 添加 因果 关系 《mc_cs， 
off, dc). 
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当 使 用 移动 动作 来 实现 (mr，pum)}) 时 ， 就 会 首次 破坏 因果 关系 。 这 个 动作 破坏 了 因果 
KAR (mce_cs, off, dc), EMARA LE dc 之 后 或 者 mc_cs 之 前 (机 器 人 送 完 喇 啡 后 再 去 收 


RE). A 


前 面 的 算法 掩盖 了 一 个 重要 的 细节 。 一 个 规划 中 有 时 候 需 要 执行 某 个 动作 多 次 。 这 种 
情况 下 ， 前 面 的 算法 就 不 起 作用 了 ， 因 为 它 试图 去 找到 发 生 在 同一 时 刻 的 动作 实例 间 的 一 
个 偏 序 关系 。 为 了 解决 这 个 问题 ， 排 序 应 该 是 动作 实例 间 而 不 是 动作 本 身 之 间 的 关系 。 要 
实现 这 一 点 ,我 们 为 一 个 动作 的 每 个 实例 分 配 一 个 索引 ， 然 后 对 这 个 动作 实例 的 索引 进行 
排序 而 不 是 动作 本 身 。 这 个 留 作 练习 。 


8.6 本 章 小 结 


* 规划 是 选择 一 个 动作 序列 以 实现 某 个 目标 的 过 程 。 

> 动作 是 一 个 状态 到 另 一 个 状态 的 一 个 函数 (状态 转移 函数 )。 一 些 表示 方法 都 是 从 状态 的 表示 中 对 
其 结构 进行 开发 的 。 特 别 的 ， 基 于 特征 的 动作 表示 法 表示 的 就 是 在 前 一 状态 下 必须 为 真 使 得 某 特 
征 在 下 一 个 状态 中 获得 一 个 值 。STRIPS 表示 法 是 基 于 动作 的 表示 ， 它 指定 动作 的 结果 。 

。 可 以 使 用 不 同 的 规划 算法 将 规划 问题 转化 为 搜索 问题 。 


8. 7 参考 文献 及 进一步 阅读 


STRIPS 表示 法 是 由 Fikes 和 Nilsson[1971] 提 出 的 。 

目前 很 多 人 在 研究 如 何 规划 动作 序列 。Yang[1997] 出 版 了 一 本 教材 ， 对 规划 进行 了 概述 。 一 些 经 典 
的 论文 可 以 参看 Allen, Hendler 和 Tate[1990]。 

前 向 规划 已 经 成 功 地 用 于 积木 世界 规划 中 ， 其 中 一 些 好 的 启发 式 方法 是 由 Bacchus 和 Kabanza[ 1996] 
定义 的 。( 见 习题 8.6.) 

回归 规划 最 时 由 Waldinger[ 1977] 提 出 。 而 最 弱 先 决 条 件 的 使 用 是 基于 Dijkstra[1976] 的 工作 ， 用 它 
来 定义 命令 式 编程 语言 的 语义 。 这 应 该 不 会 太 奇 怪 ， 因 为 命令 式 语言 的 命令 是 改变 计算 机 状态 的 动作 。 

CSP 规划 是 基于 图 规划 [Blum 和 Furst，1997] 和 表 规 划 [Kautz 和 Selman，1996] 的 。Lopez 和 Bac- 
chus[_2003 ] D & van Beek 和 Chen[1999] 也 曾 研究 过 将 规划 看 成 是 一 个 CSP 问题 。Bryce 和 Kambhampati 
[2007] 给 出 了 近期 的 研究 现状 。 

偏 序 规划 首次 出 现在 SacerdotiL1975] 的 NOAH 系统 中 ， 随 后 又 出 现在 TateL1977] 的 非 线 性 
(NONLIN) 系 统 ，Chapman[ 1987] 的 调整 (TWEAK) 算 法 ， 以 及 McAllester 和 RosanblittL1991] 的 系统 非 
线性 规划 (SNLP) 算 法 中 。 和 参见 Weld[1994] 对 偏 序 规划 的 综述 以 及 Kambhampati, Knoblock 和 Yang 
[L1995] 对 这 些 算法 的 比较 。 这 里 给 出 的 版 本 主要 是 SNLP( 见 习题 8. 15)。 

参见 Wilkins[1988] 对 规划 中 实际 问题 的 探讨 ， 以 及 Weld[1999], McDermott 和 Hendler[ 1995], 
Nau[ 2007] 的 相关 文章 对 规划 问题 的 最 新 综述 。 


8.8 习题 


8. 1 考虑 图 8-1 的 规划 领域 。 

(a) 给 出 基于 特征 表示 的 特征 MW 和 RHM., 
Cb) 给 出 动作 取 上 邮件 和 送 邮 件 的 STRIPS 表示 。 

8.2 假设 机 器 人 不 能 同时 拿 着 咖啡 和 邮件 。 给 出 两 种 方法 通过 改变 表示 这 个 规划 问题 的 CSP 来 反映 这 
个 约束 。 通 过 给 出 一 个 问题 对 其 进行 验证 ,考虑 当 机 器 人 存在 该 约束 与 不 存在 该 约束 时 间 题 结果 的 
异同 。 

8.3 写 出 这 个 有 限 机 器 人 传送 世界 的 一 个 完整 描述 ， 然 后 画 出 一 个 状态 空间 表示 图 ， 其 中 至 少 包 括 本 章 
讨论 的 积木 世界 中 的 两 个 动作 实例 。 注 意 ， 弧 的 数量 取决 于 动作 实例 的 个 数 。 
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8.4 


8.5 


8.6 
8.7 


8.8 


8.9 


改变 传送 机 器 人 世界 的 表示 ( 例 8-1)， 使 得 

(a) Agent 不 能 同时 拿 着 邮件 和 咖啡 。 

(b) Agent 可 以 拿 着 一 个 盒子 ， 这 个 盒子 可 以 放置 物体 (这 样 Agen 就 可 以 拿 着 盒子 ， 而 盒子 可 以 
同时 装着 邮件 和 咖啡 ) 。 

在 一 个 例子 上 进行 测试 ， 给 出 一 个 不 同 于 原始 表示 的 解 。 

假设 我 们 必须 求解 打扫 房子 的 规划 问题 。 不 同 的 房间 有 的 可 以 擦 (使 房间 无 侍 )， 有 的 可 以 扫 ( 使 房 

间 有 一 个 干净 的 地 板 )， 但 如 果 机 和 响 人 在 某 个 房间 就 只 能 擦 或 者 扫 。 扫 地 会 使 得 房间 落 满 灰尘 ( 即 不 

是 无 人生)。 如 果 抹 布 是 干净 的 ， 机 器 人 只 可 以 擦 一 个 房间 。 但 擦 房间 会 造成 额外 的 灰 竺 ， 例如 擦 车 

库 会 使 抹布 变 脏 。 机 器 人 可 以 直接 从 一 个 房间 移动 到 另 一 个 房间 。 
假设 有 两 个 房间 : 仓库 ， 如 果 它 是 积 满 灰尘 的 ， 会 造成 额外 的 灰尘 (extra-dusty); 卧室 ， 非 额 

HRA. A AFEFE: 

+ Babs ww Kt. Lrdusty 为 真 。 

。 当 仓 库 落 满 灰 竺 时 ，Gar_dusty HH. 

。 当 了 卧室 地 板 脏 时 ，Lr_dirty_floor 为 真 。 

- 当 仓 库 地 板 脏 时 ，Gar_dirty_floor HH, 

» 当 抹 布 干净 时 ，Dustcloth_clean HHA. 

。 Rob_loc 表示 机 器 人 的 位 置 。 

假设 机 器 人 任何 时 刻 都 可 以 做 以 下 的 某 个 动作 : 

* move; 移动 到 其 他 房间 。 

+ dust_lr: PRED HL tt AES BES ARE). 

。 dust gar: 擦 仓库 (机 器 人 在 仓库 旦 仓库 落 满 灰 持 )。 

* sweep_lr: SRR OLA ACERS). 

。 sweep_gar; 扫 仓 库 地 板 (机 器 人 在 仓库 )。 

(a) 给 出 dust_gar 的 STRIPS 表示 。 

(b) 给 出 lr_dusty 的 基于 特征 表示 。 

(c) 假设 ， 动作 sweep 代替 动作 sweep_lr 和 sweep_gar， 意 思 是 无 论 机 器 人 在 哪个 房间 只 是 清扫 。 
解释 如 何 改变 先前 的 解答 来 处 理 这 个 新 的 表示 或 者 为 什么 不 能 使 用 这 个 新 表示 。 

针对 前 向 规划 程序 ， 提 出 一 个 好 的 启发 式 方法 应 用 在 机 器 人 传送 领域 ,实现 它 ， 运行 效果 如 何 ? 

假设 你 对 动作 a: 和 az 有 STRIPS 表示 ， 你 想 要 定义 混合 动作 a, a 的 STRIPS 表示 ， 也 就 是 先 执 

行动 作 al， 再 执行 动作 aza 

(a) 这 个 混合 动作 的 结果 列表 是 什么 ? 

(b) 这 个 混合 动作 的 先决 条 件 是 什么 ? 假设 先决 条 件 可 以 表示 为 一 个 Variable= value 对 列表 (而 不 
是 任意 的 逻辑 公式 )。 

(o) 使 用 例 8-1 的 传送 机 器 人 领域 ， 给 出 混合 动作 pues me 的 STRIPS 表示 ， 

(d) 给 出 混合 动作 puc、mc、dc( 由 3 个 原始 动作 组 成 ) 的 STRIPS 表示 。 

(e) 给 出 混合 动作 mcc、puc、mc、dc( 由 4 个 原始 动作 组 成 ) 的 STRIPS 表示 。 

在 前 向 规划 中 ， 可 以 用 到 达 哪 个 状态 的 动作 序列 来 表示 一 个 状态 。 

Ca) 解释 如 何 检 查 一 个 动作 的 先决 条 件 是 否 满足 并 给 出 一 个 这 样 的 表示 。 

(b) 解释 在 这 样 一 个 表示 中 如 何 执行 循环 检测 。 你 可 以 假设 所 有 的 状态 都 是 合法 的 。( 其 他 的 程序 
已 经 确保 满足 了 先决 条 件 。) 

GER: 考虑 习题 8. 7 中 的 混合 动作 ， 由 任 一 阶段 欧 前 个 或 者 倒数 大 个 动作 组 成 。) 

解释 对 于 不 论 是 动作 的 基于 特征 表示 还 是 STRIPS 表示 ， 如 何 将 回归 规划 程序 扩展 到 包括 维护 目 

io GER: 考虑 当 维 护 目 标 提 到 一 个 没有 出 现在 节点 中 的 特征 时 会 发 生 什 么 -) 


8. 10 在 传送 机 器 人 领域 ， 为 回归 规划 程序 给 出 一 个 非 零 的 启发 式 函 数 和 一 个 实际 路 径 成 本 的 较 低 评 估 ， 


8. 11 


是 否 可 行 ? 
解释 如 何 将 多 路 径 剪 枝 并 人 回归 规划 程序 中 。 应 该 何 时 剪 掉 节点 ? 


8. 12 


8. 15 
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对 于 CSP 规划 给 出 这 样 一 种 情况 : 当 弧 的 搜索 一 致 性 在 某 一 规划 时 域 下 不 满足 时 ， 意 味 着 不 会 有 
长 于 该 时 域 的 解 了 。 GER: 考虑 一 个 非常 长 的 时 域 ， 前 向 搜索 和 后 向 搜索 相互 不 受 影响 .) 实 
RE» 

要 执行 偏 序 规划 程序 中 的 函数 add_constraint(A,<A;. ，Comstraints) ， 必 须 为 一 个 偏 序 选择 一 个 表 

示 。 以 下 是 一 个 偏 序 的 不 同 表 示 ， 执行 它 们 ; 

Ca) 将 一 个 偏 序 表示 为 推导 排序 的 一 个 小 于 关系 集合 ， 例 如 ,表示 为 列表 [1<2, 2<4, 1<3, 
3<A, AaS 

Cb) 将 一 个 偏 序 表示 为 由 排序 推导 出 的 一 个 小 于 关系 集合 ， 例 如， 表示 为 列表 [1 二 2, 2<4, 1< 
4, 135 Se Th. 25s SDs PSD. 

(c) 表示 为 一 个 (E，L) 对 集合 ， 其 中 ERM PH—TICR., LAE PORE 之 后 的 所 有 元 素 
的 一 个 列表 。 对 每 个 EE， 存 在 唯一 的 形式 ( 玉 ， 上 L》。 这 样 的 一 个 例子 是 , (41. [2, 3, 4, 5)), 
“oa es Che LSD CHa CIE 

对 于 以 上 的 每 个 表示 ， 这 个 偏 序 能 有 多 大 ? 检查 一 个 新 的 排序 的 一 致 性 有 多 容易 ? 添加 一 个 新 的 

小 于 排序 约束 有 多 容易 ?你 认为 哪个 是 最 高 效 的 表示 ? 你 能 想 出 一 个 更 好 的 表示 吗 ? 

下 于 偏 序 规划 程序 中 的 选择 算法 并 不 十 分 复杂 。 对 选择 的 子 目 标 进行 排序 可 能 是 一 种 明智 的 选择 。 

例如 ; 在 机 器 人 世界 ， 机 器 人 应 该 尽量 在 子 目标 at 之 前 实现 carrying 子 目标 。 因 为 对 机 器 人 来 说 ， 

当 它 知道 应 该 拿 起 一 个 物体 时 尽快 地 拿 起 它 可 能 是 明智 的 。 然 而 ,机 器 人 并 不 一 定 想 移动 到 某 个 

地 方 ， 除 非 它 正 携带 着 需要 携带 着 的 一 切 。 实 现 这 样 的 启发 式 选择 算法 。 选 择 启发 式 是 否 实际 上 

比 选择 最 后 添加 的 子 目 标 更 好 ? 和 你 能 否 想 到 一 个 一 般 的 选择 算法 ， 不 需要 知识 工程 师 对 每 一 对 子 

目标 进行 排序 ? 

SNLP 算法 与 这 里 介绍 的 偏 序 规划 程序 是 一 样 的 ， 只 是 在 protect 程序 中 ， 先 决 条 件 是 : 

A+A HAHA, 且 (A 删除 GG 或 者 A ZAG) 
这 个 要 求 系统 性 ， 系 统 性 意味 着 对 每 个 线性 规划 有 唯一 的 偏 序 规划 。 解 释 为 什么 系统 性 可 能 

是 也 可 能 不 是 一 件 好 事 (例如 ， 讨 论 它 是 如 何 更 改 分 支 因 子 或 减 小 搜索 空间 的 )。 在 不 同 的 例子 上 

测试 不 同 的 算法 。 
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规划 就 像 在 一 个 建筑 的 周围 搭建 约 脚 手 架 。 当 你 建造 建筑 外 上 过时， 脚手架 的 作用 至 关 
重要 ; 一 旦 建 好 了 建筑 外 充 并 开始 内 部 装修 ， 脚 手 架 就 需要 拆 挤 了 。 这 就 是 我 所 理解 的 规 
划 。 为 顺利 完成 一 项 工作 ,规划 工作 必须 经 过 深思 热 虑 ， 但 它 不 能 代替 你 在 完成 工作 中 的 
每 个 细节 时 付出 的 努力 。 实 现 你 想法 的 过 程 很 少 会 与 你 的 原 有 规划 一 致 。 

—Twyla Tharp[ 2003 ] 


在 上 面 的 引文 中 ，Tharp 指 的 是 舞蹈 ， 但 对 于 任何 一 个 具有 不 确定 性 的 Agent 来 说 ， 
该 观点 同样 适用 。 一 个 Agent 不 能 仅仅 规划 出 一 个 顺序 的 步 又， 规划 的 结果 需要 更 加 复 
杂 。 做 规划 时 ， 必 须 考虑 到 这 种 情况 ，Agent 并 不 知道 在 它 采 取 行动 时 会 发 生 什 么 。 
Agent 应 该 规划 如 何 应 对 其 所 处 环境 的 变化 。Agent 的 具体 行为 应 由 事先 的 规划 和 其 遇 到 
的 真实 环境 决定 。 

如 果 一 个 Agent 不 能 够 确切 地 知道 它 的 行动 能 够 产生 什么 影响 ， 那 么 请 考虑 一 下 它 该 
怎么 做 ? 决定 该 怎么 做 是 很 困难 的 一 件 事 ， 因 为 在 任何 时 候 ， 一 个 Agent 应 该 做 什么 需要 
依赖 于 它 在 将 来 要 做 什么 。 然 而 ， 它 将 来 要 做 出 的 行为 又 依赖 于 它 现在 的 动作 及 它 在 将 来 
观察 到 的 东西 。 

在 有 不 确定 性 的 情况 下 ， 一 个 Agent 通常 不 能 够 保证 满足 其 目标 ， 甚 至 试图 以 最 大 的 
可 能 达到 其 目标 也 可 能 变 得 不 切实 际 。 例 如 ， 一 个 目标 为 不 在 车 祸 中 受伤 的 Agent 可 能 会 
拒绝 坐 进 汽车 或 沿 着 人 行道 走路 ， 甚 至 不 会 进入 建筑 物 的 第 一 层 一 一 大 多 数 人 都 会 认为 这 
样 的 Agent 不 是 很 聪明 。 一 个 不 能 保证 满足 其 目标 的 Agent 的 失败 方式 多 种 多 样 ， 其 中 一 
些 相当 糟糕 。 

本 章 讨论 的 是 如 何 同时 考虑 这 些 因 素 。 

一 个 Agent 决定 要 干什么 依赖 于 三 件 事情 : 

。 Agent 的 能 力 : Agent 必须 从 其 可 用 选项 中 选 出 一 个 。 

。 Agent 的 信念 : 你 可 能 会 试 着 解释 “这 个 世界 上 什么 为 真 ”。 对 于 Agent 则 不 一 样 : 

当 它 不 知道 世界 上 什么 为 真 时 ， 它 就 只 基于 自己 的 信念 采取 动作 。Ageant 根据 其 
对 外 界 的 感知 而 更 新 自己 的 信念 。 

。 Agent 的 偏好 : 当 一 个 Agent 必须 在 不 确定 环境 下 进行 推理 时 ， 它 不 仅 需 要 考虑 
最 可 能 会 发 生 什 么 ， 而 且 需 要 考虑 会 发 生 什 么 。 某 些 有 可 能 发 生 的 事情 可 能 会 造 
成 很 严重 的 后 果 。 这 里 的 术语 “目标 ”的 含义 较 第 8 章 中 的 更 手 富 ， 因 为 Agent 的 
设计 者 必须 明确 不 同 结果 间 的 平衡 关系 。 例 如 ， 一 些 行为 经 常会 产生 很 好 的 结果 ， 
但 有 时 也 会 导致 灾难 性 的 后 果 ， 那 么 它 就 必须 比较 决定 是 否 选 择 男 一 个 可 选 的 动 
YE: 这 个 动作 能 够 以 较 小 的 概率 产生 好 的 结果 ， 通常 只 能 得 到 一 般 的 结果 ， 但 会 
以 较 小 的 概率 导致 灾难 的 结果 。 决 策 理 论 用 来 解决 平衡 产生 期 望 的 结果 与 其 他 结 
果 的 问题 。 
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谁 来 评价 ? 


任何 一 个 计算 机 程序 或 任何 一 个 人 在 决定 采取 什么 行动 或 给 出 什么 建议 时 ， 都 会 使 用 
菜 种 评价 系统 来 判定 什么 是 重要 的 ,什么 不 是 重要 的 。 

Alice... 继续 问 :“ 你 能 告诉 我 应 该 选择 哪 条 路 吗 ?” 

“这 取决 于 你 想 去 哪里 ,”Cat 答 道 。 

“我 不 在 意 我 会 走 到 哪里 ”Alice 说 。 

“那么 你 选 哪 条 路 都 无 关 紧 要 。”Cat Sik, 
Lewis Carroll(1832—1898). «Alice’s Adventures in Wonderland), 1865 





很 自然 的 ， 我 们 所 有 人 都 希望 计算 机 按照 我 们 的 评价 系统 来 工作 ， 但 它们 却 不 能 按照 
任何 一 个 人 的 评价 系统 工作 ! 如 村 你 开发 一 个 在 实验 室 工 作 的 程序 ， 那 么 没有 问题 ， 它 会 
按照 人 的 希望 工作 。 此 时 程序 会 根据 设计 者 的 目标 和 评价 标准 执行 动作 ， 同 时 设计 者 也 是 
程序 的 使 用 者 。 如 果 一 个 系统 有 多 个 用 户 ， 那 你 就 必须 考虑 将 谁 的 评价 标准 植 入 程序 中 。 
如 果 一 个 公司 向 一 个 医生 销售 一 套 医 疗 诊断 系统 ， 那 么 该 系统 给 出 的 诊断 能 够 反映 社会 、 
公司 、 医 生 、 病 人 (他 们 可 能 有 非常 不 同 的 评价 标准 ) 的 评价 标准 吗 ? 它 能 够 测定 医生 或 者 
病人 的 评价 标准 吗 ? 

如 果 你 要 开发 一 个 能 给 别人 提供 一 些 建 议 的 系统 ， 你 就 需要 找 出 哪些 是 符合 预期 的 ， 同 
时 也 要 找 出 他 们 的 评价 标准 是 什么 。 例 如 ， 在 一 个 医疗 诊断 系统 中 ， 正 确 的 诊断 过 程 不 仅 依 
赖 于 病人 的 症状 ;而且 依 束 于 病人 优先 考虑 的 事情 。 为 了 更 好 地 了 和解 其 所 处 的 环境 ,他们 准 
KRZ- LRE? 他 们 愿意 为 了 还 长 一 点 儿 生 佑 而 恐 受 许多 疼痛 吗 ? 他 们 准备 承受 什么 样 
的 风险 ? 对 于 一 个 建议 你 做 什么 事情 的 程序 或 人 ， 如 果 他 没有 询问 你 的 意见 ， 则 你 需要 保留 
怀疑 态度 。 作 为 能 执行 任务 或 提供 建议 的 程序 的 开发 者 ， 你 应 该 清楚 地 知道 要 在 程序 中 峰 入 
谁 的 评价 系统 。 


9. 1 偏好 和 效用 


一 个 Agent 应 该 根据 其 偏好 来 决定 做 什么 。 在 本 节 ， 我们 介绍 几 个 我 们 希望 的 偏好 的 
直观 性 质 ， 并 给 出 由 这 些 性 质 得 到 的 一 个 结果 。 我 们 给 出 的 属性 是 理性 公理 (axioms of 
rationality)， 从 它们 出 发 我 们 证 明 一 个 有 关 如 何 测度 偏好 的 定理 。 你 需要 考虑 这 些 公理 
对 于 一 个 理性 Agent 而 言 是 否 是 合理 的 ; 如 果 你 认为 它们 是 合理 的 ， 你 就 应 该 接受 由 它们 
导出 的 结果 。 如 果 你 不 接受 这 个 结果 ， 你 就 应 该 考虑 需要 放弃 哪 一 条 公理 。 

一 个 Agent 根据 其 各 个 行动 能 产生 的 结果 (outcome) 来 选择 其 行动 。Agent 所 选 行动 
产生 的 结果 是 其 偏好 的 结果 。 如 果 Agent 没有 特别 的 偏好 ， 则 Agent 做 什么 都 无 关 紧 要 。 
我 们 在 考虑 行动 产生 的 结果 时 先 不 考虑 相关 联 的 行动 所 产生 的 结果 ， 并 假设 这 些 结果 的 数 
HEA RAN. 

我 们 在 结果 上 定义 了 和 偏好 关系 。 假 设 of Mo. MTER. WR o 的 合意 度 不 比 o 
低 ， 则 我 们 称 o 弱 偏 好 (weakly preferred) F ozs 记 为 mi 兰 o。 下 面 的 公理 可 以 说 是 这 个 
偏好 关系 的 合理 的 性 质 。 

定义 中 一 oz 来 表示 同时 满足 0; 02 Filo. > 0. 也 就 是 说 ，om 一 oz 表示 这 两 个 结果 的 合 
意 度 相同 。 此 时 ， 我 们 说 Agent 在 结果 o 与 o 之 间 没 有 偏好 。 

定义 oo 来 表示 0, 二 os H oz 兰 ol 。 也 就 是 说 ，Agent 偏好 结果 or 胜 过 结果 o H. 
此 差异 有 显著 性 。 此 时 ， 我们 称 o 强 偏好 (strictly preferred) F os 。 
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一 般 来 说 ,一 个 Agent 事先 不 能 确切 地 知道 其 行为 产生 的 结果 。 通 过 在 各 个 结果 上 分 
配 有 限 的 概率 来 定义 一 个 抽奖 法 (lottery) ， 记 为 

[Ps :0 » P2202 att apes] 

H, o: 是 Agent 的 行为 产生 的 各 种 结果 ，p: 是 非 负 实数 是 满足 

Dit =1 

上 述 抽奖 法 规定 了 结果 o 的 发 生 概 率 是 p;。 在 后 文 叙 述 中 ,假设 所 有 结果 都 包含 抽 
奖 法 ， 对 于 抽奖 法 来 说 也 同样 包含 有 抽奖 法 。 

公理 9. 1( 完 备 性 ) Agent 在 所 有 结果 上 都 定义 了 偏好 ; 

Yo Voz 0; > oo Ñ op > o, 

4309.1 的 合理 性 在 于 一 个 Agent 必须 采取 行动 。 如 果 Agent 执行 了 可 用 的 行为 能 够 
产生 结果 o 和 0;， 那 么 它 就 会 显 式 或 隐 式 地 更 希望 得 到 其 中 的 某 个 结果 ， 而 不 希望 得 到 
另 一 个 结果 。 

公理 9. 2( 可 传递 性 ) ”偏好 一 定 是 可 传递 的 : 

wR oo: Ho. 0;, MAA o, >03. 

为 说 明 公 理 9.2 的 合理 性 ， 首 先 假设 该 公理 是 错误 的 ， 即 当 o, 之 os HA oz 三 os 时 有 
0;>0,. AA o 强 偏好 于 o ， 所 以 Agent 会 乐意 付出 一 些 代 价 将 o 结果 转换 成 os。 假 设 
Agent 得 到 了 os 结果 ， 由 于 结果 os 至 少 与 结果 o 一 样 好 ， 所 以 Agent 会 乐意 得 到 结果 
os 。 进 一 步 ， 结 果 o 至 少 与 结果 o 一 样 好 ， 所 以 Agent 会 乐意 得 到 结果 01。 一 旦 Agent 
得 到 结果 wm ， 它 就 会 乐意 付出 一 些 代价 从 而 得 到 结果 0;。 此 时 ，Agent 通过 偏好 关系 走 了 一 
个 循环 ， 付 出 了 成 本 又 回 到 了 原 地 。 这 个 含有 成 本 付出 的 循环 被 称 为 货币 泵 ， 因 为 只 要 循环 
EBZK., Agent 必须 付出 的 成 本 会 超过 任何 有 限 的 数值 。 因 此 ， 在 一 组 结果 之 中 循环 并 为 
之 付出 成 本 是 不 符合 理性 的 ， 从 而 ， 一 个 理性 的 Agent 对 结果 的 偏好 应 该 存在 可 传递 性 。 

此 外 ， 假设 混 合 的 > 和 三 关系 满足 单调 性 ， 因 此 ， 如 果 公 理 9. 2 的 前 提 申 的 一 个 或 两 
个 偏好 关系 是 强 偏 好 的 ， 那 么 其 结论 也 是 强 偏好 的 。 也 就 是 说 ， 如 果 o > 02 FF A 02 20, 
那么 有 01>03; MA, WR o >o0, 并 且 o:>0;, 那么 有 0; 03. 

公理 9. 3( 单 调 性 ) 一 个 Agent 偏向 于 以 较 大 的 概率 (而 不 是 以 较 小 的 概率 ) 得 到 较 好 
的 结果 ， 即 如 果 有 o>0 且 力 一 q， 则 有 

[p:0s(1— pi saz] > Lq: C1 —@) : 0: J 

注意 ， 在 公理 9.3 中 ,结果 之 间 的 符号 > 表示 Agent 的 偏好 ,而 p 与 g 之 间 的 二 表示 
两 个 数值 间 的 大 小 比较 。 

公理 9. 4( 可 分 解 性 )[ 赌博 中 无 乐趣 ] 对 于 两 个 抽奖 法 ， 如 果 对 于 相同 的 结果 其 产生 
的 概率 是 相同 的 ， 则 Agent 对 这 两 个 抽奖 法 没有 偏好 ， 对 于 抽奖 法 雹 套 抽 奖 法 的 情况 也 是 
Sot, Hil Se: 

[pio s O — p);[q:02,Q—q):05]] ~ [p:0,,0 — pdqsa2,€1 — p) (1 — gq) : 03] 
另外 ， 对 于 任意 的 结果 ol 和 os A 0,~[1:0,. 0:02], 

公理 9.4 说 明 抽 奖 法 只 与 其 能 够 产生 的 结果 及 产生 结果 的 概率 有 关 。 如 果 一 个 Agent 
有 赌博 的 偏好 ， 那 么 赌博 应 成 为 结果 空间 的 一 部 分 。 

上 述 公理 能 用 来 刻画 一 个 Agent 关于 结果 与 抽奖 法 的 许多 偏好 。 人 和 假设 有 om 三 oz，o: 三 
os， 考 虑 对 于 不 同 的 概率 p. PELO, 1], 该 Agent 是 否 偏向 获得 如 下 结果 : 

S o 

。 WEEL: A—p):o; ] 

当 p=1 时 ，Agent 偏向 于 上 述 抽奖 法 (因为 该 抽奖 法 等 价 于 o.. FAA o>). 4 
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p=0 if, Agent 偏向 于 o (因为 此 时 上 述 抽奖 法 等 价 于 oo 并且 0;>0;)。 随 着 p 的 变动 ， 

在 某 一 取 值 处 ，Agent 的 偏好 在 o 与 上 述 抽奖 法 之 间 突 然 发 生 了 变动 。 图 9-1 说 明了 偏好 

随访 的 取 值 变化 而 发 生变 动 的 情况 ， 其 中 和 X 轴 表 示 方 的 取 值 , 了 轴 表 示 偏 好 的 结果 。 
偏好 的 结果 


[p:0,, 1-p:0,] 





0 


0 Pı 
抽奖 法 中 的 概率 


图 9-1 op 与 抽奖 法 间 的 偏好 是 p I — 7 


命题 9, 1 如 果 一 个 Agent 的 偏好 关系 是 完备 的 、 可 传递 的 ， 满 足 单调 性 和 可 分 解 性 
公理 ， 则 如 果 有 四 >oiy， ao 那么 存在 一 个 p OSHSA: 

。 对 于 所 有 的 Pp 二 ps，Agent 偏向 于 og ， 而 不 是 上 述 抽 奖 法 ( 即 op >Lpia. (1 一 

五 ) :os ]) 。 

。 对 于 所 有 的 p>p., Agent 偏向 于 上 述 抽 燃 法 ( 即 [p:01，(1 一 pp) :0 ]>0s)。 

证 明 : 根据 单调 性 和 可 传递 性 ， 对 于 任意 的 pp， 如 果 0; >[ pro, 1—p):0s], WW Xt 
FERN p <p 有 o:>>[p :01，(1 一 Pp'):0s]。 相 似 地 ， 对 于 任意 的 p， 如 果 [p:01， (1 一 
p):0; |>o, 则 对 于 任意 的 p>p 有 [为 :01， (1— p') :03 ]>>o2'. 根据 完备 性 ， 对 于 任意 的 
力 ， 只 存在 三 种 情况 ， 02 >Lp:o- A= p):es], oo~Lpran, (1—p):0,], [o:a, Cl— 
p) +0, |>o2.« 如 果 存 在 一 个 p 满足 0; ~Lp:o, (1— p):0;], 则 命题 得 证 。 对 于 满足 Agent 
要 么 偏好 o 要 么 偏好 [p:01，(1 一 放 ) :0 的 某 一 个 p， 均 对 于 所 有 大 于 或 小 于 的 值 蕴 
含 着 相同 的 偏好 。 不 断 切 分 那些 我 们 还 不 知 其 偏好 的 区 域 ， 我 们 会 得 到 一 个 极限 值 ， 该 值 
就 是 满足 命题 的 Dz o a 

命题 9. 1 没有 明确 Agent 在 pe 时 的 人 和 偏好。 下面 这 个 公理 说 明 Agent 在 这 个 取 值 上 没 
有 偏好 。 

公理 9. 5( 连 续 性 ) MILA ao oos MHA—*F pE, 114 

oz ~ [pe 10, +1 — pr) 204 ] 

下 面 一 个 公理 表明 ， 如 果 把 一 个 抽奖 法 中 的 结果 替换 成 另 一 个 不 会 更 差 的 结果 ， 则 抽 
奖 法 不 会 变 得 更 差 。 

公理 9. 6( 可 替换 性 ) to Ro, >o,, 那么 Agent FH MIF o FRA o, 而 其 他 都 相 
同 的 抽奖 法 。 也 就 是 说 ， 对 于 任意 的 户 和 结果 os， 有 : 

[p:o .€1— p) 03] > [pro2,C1— p):0; J 

该 公理 的 一 个 直接 的 推论 是 可 以 将 一 个 结果 替换 为 另 一 个 Agent 没有 偏好 的 结果 而 不 
改变 其 偏好 。 

命题 9. 2 ”如果 一 个 Agent 满足 可 替换 性 公理 且 m 一 oz ， 那 么 Agent 对 那些 仅 是 结果 ol 
和 o 不 同 的 抽奖 法 无 偏好 。 也 就 是 说 ， 对 于 任意 的 力 和 结果 ou ， 下 面 的 无 偏好 关系 成 立 : 

[p:0;.C1— p):03] ~ [p:o2,C1— p):03] 

该 命题 成 立 是 因为 Oi ~oz 等 价 于 01 之 02 H oo. 
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如 果 一 个 Agent 满足 完备 性 、 可 传递 性 、 单 调 性 、 可 分 解 性 、 连 续 性 和 可 苦 换 性 公 
理 ， 那 么 就 定义 该 Agent 是 理性 的 (rational) 。 
这 个 关于 理性 的 技术 定义 是 否 符合 你 关于 理性 的 直觉 概念 由 你 来 作出 判断 。 在 本 节 的 
后 面部 分 ， 我们 给 出 由 此 定义 得 出 的 结果 。 
偏好 关系 看 起 来 可 能 很 复杂 ， 不 过 ， 下 面 的 定理 表明 一 个 理性 的 Agent 赋予 一 个 结果 
的 价值 能 够 用 一 个 实数 来 表示 ， 而 这 些 实 数 可 以 用 来 表示 概率 ， 因 此 ， 不 确定 环境 下 的 偏 
好 可 以 通过 期 望 进行 对 比 。 这 有 点 令 人 意外 ， 原 因 是 : 
。 乍 看 起 来 ， 偏 好 反映 的 因素 过 多 ， 因 此 难以 用 一 个 数值 表示 。 例 如， 尽管 一 个 人 
可 能 试图 使 用 美元 的 多 少 来 衡量 偏好 ;但 并 不 是 所 有 的 东西 都 有 一 个 用 来 销售 的 
价格 或 者 难以 将 其 价值 转换 成 美元 或 美 分 。 
。 你 可 能 不 认为 那个 数值 能 与 概率 联系 起 来 。 对 于 任意 的 货币 值 工 和 >y 及 pEL0， 
1]， 一 个 对 于 价值 为 $ prt Apy MRMBRELP: $z，(1 一 p)$ yj 确定 的 
货币 价值 并 无 偏好 的 Agent 被 称 为 期 望 货币 价值 (expected monetary value, 
EMV)Agent。 大 多 数 人 都 不 是 EMV Agent， 因 为 他 们 在 诸如 $1 000 000 与 根据 
抽奖 法 [0.5:$0，0.5:$2 000 000] 确 定 的 美元 数 之 间 有 很 强 的 预 设 偏好 (想象 一 
下 ， 你 是 愿意 直接 得 到 一 百 万 美元 呢 ? 还 是 愿意 执 一 枚 硬币 ， 当 出 现 正 面 时 什么 
也 得 不 到 ， 而 当 出 现 反 面 时 得 到 两 百 万 美元 9) 。 钱 的 多 少 不 能 简单 地 与 概率 联系 
起 来 ， 因 此 用 一 个 数值 表示 偏好 的 概率 自然 令 人 感到 惊奇 。 
命题 9. 3 如 果 一 个 Agent 是 理性 的 ， 则 对 于 所 有 的 结果 o 都 有 一 个 实数 (0;)， 称 
为 o; HRA Cutility), Bz 
。 o>o;, 4% 142% ulo;)>ulo;). 
。 效用 与 概率 呈 线 性 关系 
u([ pi 0s pa:orr ry Pe r01 |) = piulo) + prulor) ++ + piulo) 
TERA: 如 果 Agent 没有 强 偏 好 ( 即 Agent 对 于 得 到 的 任何 结果 都 一 视 同 仁 )， 则 对 于 所 
有 的 结果 0 定义 其 效用 为 (0o) 二 0。 
另 一 方面 ， 选 择 最 好 的 结果 记 为 on: ， 选 择 最 差 的 结果 记 为 06s， 并 对 于 任意 的 结果 
oc， 定义 其 效用 为 p， 其 中 户 满足 : 
O~ [Pz Gee» (1 —p) :Ou 


命题 的 前 半 部 分 满足 可 蔡 换 性 和 单调 性 。 
命题 的 后 半 部 分 能 够 通过 将 .o; 车 换 为 等 价 的 、 介 于 ous 与 ou 之 间 的 抽奖 法 ， 以 及 公 
理 中 给 出 的 效用 得 到 证 明 。 证 明细 节 留 作 练 习 。 a 


在 上 述 证 明 中 ， 效 用 全 部 介 于 [0，1j 之 间 ， 但 任意 的 线性 刻度 都 能 得 到 同一 结论 。 有 
时 候 ，[0，100j 是 一 个 很 好 的 刻度 ,这样 可 以 使 它 和 概率 明确 区 分 开 来 ; 在 舅 一 些 时 候 ， 
对 于 需要 付出 成 本 才能 得 到 的 结果 来 说 ,负数 也 是 有 用 的 。 通常 ， 一 个 程序 应 该 接受 任意 
的 对 于 用 户 来 说 直观 的 刻度 。 

在 钱 数 与 效用 之 间 ， 并 不 常常 存在 线性 关系 ， 即 使 每 一 结果 都 附 有 货币 价值 时 也 是 如 
此 。 当 涉及 钱 时 ， 人 们 常常 是 风险 规避 (risk averse) 的 。 他 们 宁愿 稳 稳 地 拿 在 手中 美元 ， 
而 不 愿 参与 一 个 获得 钱 数 的 期 望 为 n 的 随机 过 程 ( 在 这 个 过 程 中 可 能 得 到 更 多 回报 ,也 可 
能 得 到 较 少 回报 )。 

【 例 9-11 9-2 显示 了 一 个 风险 规避 Agent 的 金钱 -效用 平衡 的 曲线 ;风险 规避 对 应 
一 个 四 效用 函数 。 

这 个 Agent 可 能 宁愿 获得 30 万 美元 ， 而 不 愿 以 50% 的 概率 获得 100 万 美元 50% 的 概率 
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什么 也 得 不 到 ， 但 是 他 又 偏向 于 豪赌 100 万 美元 而 不 是 直接 得 到 27 万 5 千 美 元 。 他 愿意 选择 
以 73 多 的 概率 博取 100 万 美元 的 赌局 ， 而 不 愿 选 择 以 50% 的 概率 博取 50 万 美元 的 赌局 。 
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钱 数 〈 千 美元 ) 
图 9-2 一 个 风险 规避 智能 体 的 金钱 -效用 平衡 图 


注意 ， 效 用 函数 x($999 000)s*0. 9997。 因 此 ， 对 于 这 个 效用 函数 ， 人 们 可 能 会 愿意 
ft 1 000 美元 来 消除 造成 失去 所 有 钱 的 0. 03% 的 概率 。 这 就 是 保险 (insurance) 公 司 存 在 的 
原因 。 通 过 付 给 保险 (insurance) 公 司 一 些 钱 ， 比 如 600 美元 ，Agent 能 够 将 抽奖 法 的 价值 
由 99 万 9 千 美 元 增加 到 100 万 美元 ， 而 保险 公司 期 望 的 赔付 是 300 美元 ， 期 望 的 租 利 是 
300 美元 。 保 险 公司 能 够 通过 为 足够 多 的 房产 提供 保险 来 获得 其 期 望 的 收益 。 这 对 各 方 都 
是 有 益 的 。 = 
正如 前 面 所 述 ， 理 性 与 效用 函数 的 形式 没有 关系 。 377 
> 【 例 9-2〗 图 9-3 显示 了 一 个 人 的 金钱 -效用 平衡 曲线 ， 该 人 十 分 想 要 一 个 价值 30 美 
元 的 玩具 ， 但 是 他 也 乐意 要 一 个 价值 20 美元 的 玩具 。 除 此 之 外 ， 钱 对 于 Agent 的 决策 影 
响 不 大 。 该 Agent 还 准备 承担 风险 来 得 到 他 想 要 的 。 比 如 ， 如 果 它 有 29 美元 ， MAZES 
很 高 兴 在 一 个 公平 的 方式 下 ， 如 抛掷 一 枚 硬币 ， 下 注 19 美元 去 赢 取 另 一 个 Agent 的 1 美 
元 。 该 Agent 不 想 要 超过 60 美元 的 玩具 ， 因 为 这 会 使 它 认 为 这 是 在 敲诈 。 


1 


i 尝 


10 20 30 40 50 60 70 80 90 100 
美元 


9-3 来 自 例 9-2 的 一 个 金钱 -效用 均衡 曲线 < 
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因子 化 效用 


正如 前 面 的 定义 ， 效 用 是 结果 或 状态 的 一 个 函数 。 通 常 ， 由 于 存在 的 状态 过 多 ， 以 至 
于 难以 直接 用 状态 来 表示 效用 函数 。 使 用 特征 来 表示 效用 函数 是 一 个 更 容易 的 方式 。 

假设 每 一 个 结果 都 能 使 用 特征 X ，…，X, 来 描述 。 累 加 效用 (additive utility) 能 够 分 
解 为 因子 的 集合 

uCX, oe, Xn) = fi Ky) Ht + f, CX) 

这 样 的 分 解构 成 了 累加 独立 性 (additive independence) Rii. 

既然 效用 可 以 累加 ， 那 就 极 大 地 简化 了 偏好 引出 (preference elicitation) 一 一 获取 用 户 
的 偏好 的 问题 。 注 意 ， 效 用 的 分 解 不 是 唯一 的 ， 因 为 添加 一 个 常数 到 一 个 因子 上 ， 同 时 从 
另 一 个 因子 上 减 去 相应 的 效用 ， 可 以 得 到 同样 的 效用 。 为 了 将 其 分 解 为 规范 的 形式 ， 我 们 
可 以 定义 一 个 局 部 效用 函数 五 CX)， 当 夸 ; 的 取 值 是 其 最 差 值 时 ，w;(X;) 的 取 值 为 0; 当 
X: 的 取 值 是 其 最 优 值 时 ，w;(X;) 的 取 值 为 1; 同时 还 有 一 系列 取 值 为 非 负数 的 权重 ws 
有 的 权重 之 和 为 1， 且 满足 ， 

uCX, 0°, Xn) = wy X u (Xr) + ee +H wn X wu, CX) 
为 引出 这 样 的 一 个 效用 函数 ， 需 要 引出 每 一 个 局 部 效用 函数 并 估算 其 权 值 。 对 于 每 一 个 特 
征 ， 只 要 它 是 相关 的 ， 就 必然 有 一 个 最 优 的 取 值 和 最 差 的 取 值 。 可 以 使 用 如 下 的 方法 估算 
局 部 函数 及 其 权 值 。 我 们 仅 考虑 Xi ， 对 其 他 特征 的 考察 与 此 类 似 。 对 于 特征 Xi ， 其 取 值 
为 xy Al x’, HHA Xe, +, X, 分 别 取 值 为 zz， eres Ent 

UCT, Le ptt pty) — UCL sTo Tye) = w X Cla) — u (2) (9,1) 
当 zi 是 最 好 的 结果 而 x1 是 最 坏 的 结果 时 (此 时 ww C) u (2) = 1), RH w 能够 直接 
计算 出 来 。 对 于 域 X 的 其 他 取 值 ， 其 对 应 的 效用 wu 可 通过 式 (9.1) 计 算 一 一 些 时 z1 是 
X: 的 最 差 取 值 (w (zx1)=0)。 


对 期 望 效 用 的 质疑 


对 于 期 望 效 用 理论 ， 存 在 着 多 种 质疑 。Allais 和 Hagen 在 1953 年 提出 的 Allais PH 
[Allais，Hagen，1979] 如 下 。 下 面 两 个 选项 中 ， 你 更 愿意 选 哪个 ? 

A: $ 1m 一 百 万 美元 

B: 抽奖 法 [0.10:$2.5m，0.89: 囊 1ia，0.01;$0] 

类 似 地 ， 你 会 在 下 面 两 个 选项 中 选 哪 个 ? 

C: 抽奖 法 [0.11:$lm，0.89:$0] 

D: 抽奖 法 [0. 10:$2.5my 0.9; $0] 

结果 是 许多 人 选 A 而 不 选 B,， 选 D 而 不 选 C。 这 个 选择 结果 与 前 面 的 理性 公理 不 一 
致 。 为 解释 这 个 现象 ， 上述 选项 可 以 合并 为 同样 的 形式 : 

A, C: 抽奖 法 [0.11:$lm，0.89:X] 

B, D: 抽奖 法 [0o.10:$2.5m，0.01:$0，0.89:X] 

在 选项 A 和 B 中 ， 久 是 一 百 万 美元 。 在 选项 C 和 了 D 中 ,， 鲜 是 0 美元 。 仅 合并 各 选项 
的 不 同 部 分 看 起 来 是 一 个 合适 的 策略 ， 但 人 们 似乎 倾向 于 确定 的 结果 。 

Tversky 和 Kahneman[1974] 通 过 一 系列 的 人 群 实验 ,说 明了 人 们 是 如 何 系 统 化 地 偏 
离 效 用 理论 的 。 造 成 这 种 偏差 的 一 个 原因 是 问题 描述 的 框架 效应 (framing effect)。 考 虑 下 
面 的 问题 : 
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。 一 种 疾病 预计 会 致 600 人 死亡 。 有 下 面 两 种 应 对 方案 : 

HRA: 挽救 200 人 

ARB: 有 1/3 的 概率 挽救 600 A, 或 者 有 2/3 的 概率 导致 600 人 全 部 死亡 
你 愿意 选择 哪个 方案 ? 
。 一 种 疾病 预计 会 致 600 人 死亡 。 有 下 面 两 种 应 对 方案 : 

方案 C: 有 400 人 死亡 

方案 D: 以 1/3 的 概率 致 0 人 死亡 ， 有 2/3 的 概率 致 600 人 死亡 

你 愿意 选 哪 个 方案 ? 

Tversky 和 Kahneman 的 研究 表明 ， 在 A 和 B 方 案 中 ， 有 72% 的 人 选择 A; ECHMD 
方案 中 ， 有 22% 的 人 选择 C。 然 而 这 两 个 方案 是 完全 一 样 的 ， 只 不 过 描述 方式 不 同 
ZY. 

处 理 预 期 效用 的 另 一 个 方法 是 天 ahrnenman 和 Tversky 提出 的 前 景 理 论 Cprospect theory), 
在 这 个 理论 中 考虑 了 Agent 当前 的 财富 状况 。 也 就 是 说 ， 做 决策 的 依据 是 Agent 的 收益 和 
损失 ， 而 不 是 结果 。 然 页 ， 这 样 做 的 原因 仅 是 它 更 符合 人 类 的 选择 习惯 ， 而 不 意味 着 这 对 
于 人 工 Agent 来 说 是 最 好 的 选择 。 但 是 ， 如 果 一 个 人 工 Agent 必须 与 人 类 交互 ， 则 它 应 该 
考虑 人 类 的 推理 方式 。 


累加 独立 性 假设 是 一 个 强 独 立 假设 。 特 别 的 ， 在 式 (9.1) 中 ， 对 于 所 有 的 Xs。，…，X， 
的 取 值 xz;，…，z,， 计 算 效 用 的 差异 的 方法 是 相同 的 。 

累加 独立 性 假设 常常 不 是 一 个 好 的 假设 。 对 于 两 个 二 值 特 征 的 两 个 取 值 ， 如 果 同 时 取 
两 个 值 的 效用 比分 别 取 两 个 值 的 效用 之 和 高 ， 则 称 这 两 个 取 值 是 互补 (complement) 的 。 假 
设 有 特征 X ALY, FIRS HA ao, x }Al{ yo, yite MF ar Mo, WIR Agent 在 已 经 
有 其 中 一 个 取 值 的 情况 下 又 有 了 另 一 个 取 值 时 的 效用 优 于 Agent 有 其 中 一 个 取 值 而 没有 另 
一 个 时 的 效用 ， 则 称 zx! 和 是 互补 的 : 

UCE s Yo) — Ula syo) < ula syr) — ulto sy) 

FA, KBAR A y, 和 zi 是 互补 的 。 

对 于 两 个 二 值 特征 的 两 个 取 值 ， 如 果 同 时 取 两 个 值 的 效用 比分 别 取 两 个 值 的 效用 之 和 
低 ， 则 称 这 两 个 取 值 是 替换 (substitute) 的 。 假 设 z， 和 yi 是 替换 的 ， 则 意味 着 Agent 在 已 
经 有 其 中 一 个 取 值 的 情况 下 又 有 了 另 一 个 取 值 时 的 效用 要 低 于 Agent 有 其 中 一 个 取 值 而 没 
有 另 一 个 时 的 效用 : 

UCX s Yo) — Ulos Yo) > ul xy 991) — Ukts y1) 

这 也 蕴含 着 y 和 zi 也 是 替换 的 。 

【 例 9-3〗， 对 于 一 个 旅游 领域 的 采购 Agent 来 说 ， 预 定 某 一 特定 日 期 的 机 票 ， 和 预定 
同一 天 的 酒店 是 互补 的 : 两 者 只 取 其 一 不 会 得 到 好 的 结果 。 

考虑 到 某 人 很 乐意 在 度假 的 一 天 中 外 出 旅游 一 次 (不 是 两 次 )， 则 安排 在 同一 天 的 两 个 
不 同 的 旅游 是 可 以 苦 换 的 。 不 过 ， 如 果 两 个 旅游 地 相距 很 近 ， 并 且 去 两 地 的 旅行 时 间 较 
长 ， 则 两 次 旅游 有 可 能 是 互补 的 (如 果 旅 游 两 地 ， 则 更 体现 了 旅行 时 间 的 价值 ) 。 < 

累加 效用 假设 不 存在 效用 的 替换 和 互补 。 当 有 交互 时 ， 我 们 就 需要 一 个 更 复杂 的 模 
型 ， 比 如 广义 票 加 独立 性 模型 (generalized additive independence)， 在 其 中 将 效用 表示 为 
各 因子 之 和 。 这 与 4. 10 节 中 的 优化 模型 相似 。 无 论 如 何 ， 我 们 希望 使 用 这 些 模型 来 计算 
期 望 的 效用 。 引 出 广义 累加 独立 性 模型 要 比 引出 累加 模型 更 为 有 用 ， 因 为 一 个 特征 能 够 出 
现在 许多 因子 上 。 
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9.2 一 次 性 的 决策 


应 用 于 Agent 的 基本 决策 理论 依赖 于 下 面 的 假设 : 

。 Agent 知道 它 能 做 出 哪些 动作 。 

。 执行 每 一 个 动作 所 产生 的 效果 可 以 用 结果 上 的 概率 分 布 来 描述 。 

。 一 个 Agent 的 偏好 由 结果 的 效用 来 表示 。 

如 果 Agent 仅 执行 一 步 ， 那 么 一 个 理性 的 Agent 应 该 选择 使 得 期 望 效用 最 大 的 那个 动 
作 一 一 这 是 命题 9. 3 的 一 个 结果 。 

【 例 9-4】〗 考虑 传送 机 器 人 的 一 个 问题 : 机 器 人 的 行动 产生 的 结果 是 不 确定 的 。 特 别 
地 ， 考 虑 从 图 3-1 中 的 位 置 0109 BIA mail 位 置 的 问题 ， 此 时 机 器 人 有 可 能 偏离 原 定 路 线 
并 从 楼 梯 跌 下 去 。 假 设 机 器 人 能 够 使 用 垫子 (垫子 虽 不 能 减少 事故 的 发 生 概 率 ， 但 能 够 减 
轻 事故 的 严重 性 ) 。 不 幸 的 是 ， 这 些 垫子 增加 了 机 器 人 的 重量 。 机 器 人 也 可 以 选择 绕 一 个 
大 弯 子 ， 这 样 可 以 减少 事故 发 生 的 概率 ， 但 走 完 全 程 需要 更 多 的 时 间 。 

困 此 ， 机 器 人 不 得 不 决定 是 否 要 使 用 垫子 ， 还 要 决定 走 哪 条 路 ( 较 远 的 路 还 是 较 近 的 
路 ) 。 是 和 否 会 发 生 事故 是 不 在 其 控制 之 下 的 事情 ， 尽 管 它 可 以 通过 选择 走 较 远 的 路 程 来 减 
少 事故 发 生 的 概率 。 对 于 Agent 的 每 组 选择 和 是 否 发 生 事故 的 情况 ， 其 结果 都 介 于 发 生 严 
重 损 坏 和 在 不 增加 重量 的 情况 下 快速 到 达 之 间 。 < 

为 了 给 一 次 性 的 决策 建 模 ， 可 以 使 用 一 个 决策 变量 (decision variable) 来 表示 Agent 的 
选择 。 一 个 决策 变量 就 像 一 个 随机 变量 一 样 ， 有 一 个 值 域 , 但 没有 一 个 与 之 关联 的 概率 分 
布 。 相 反 ， 由 Agent 为 决策 变量 选择 一 个 值 。 一 个 可 能 情景 (possible world) 限 定 了 随机 
变量 和 决策 变量 的 值 域 ， 而 对 于 每 一 个 决策 变量 的 值 域 ， 其 对 应 的 随机 变量 都 有 一 个 概率 
分 布 。 也 就 是 说 ， 对 于 每 一 个 决策 变量 的 每 一 次 赋值 ， 满 足 该 次 赋值 的 可 能 情景 的 度量 之 
和 为 1。 条 件 概率 只 有 在 决策 变量 的 取 值 是 其 依赖 条 件 的 一 部 分 时 才 有 定义 。 

图 9-4 所 示 的 决策 树 描述 了 Agent 可 选 的 各 种 选项 及 其 所 产生 的 结果 (这 里 与 用 于 分 
类 的 决策 树 不 同 )。 阅 读 这 个 决策 树 时 需要 从 根 节点 (在 图 的 最 左边 ) 开 始 。 对 于 每 一 个 节 
点 ， 可 从 其 后 续 的 分 支 中 选择 一 个 来 继续 下 一 个 选择 。 对 于 决策 节点 (用 矩形 表示 的 节 
A), Agent 可 以 做 出 选择 ， 确 定 按照 哪个 分 支 走 下 去 。 对 于 每 一 个 随机 节点 (用 圆圈 表示 
的 节点 )，Agent 不 能 选择 沿 哪 个 分 支 走 下 去 ， 此 时 ， 在 可 选 分 支 中 均 分 配 有 一 定 的 选择 
概率 。 通 往 一 个 叶子 的 每 一 条 路 径 对 应 于 一 个 情景 w;， 它 表示 相应 路 径 所 能 产生 的 结果 。 


o> wo: 中 等 程度 的 损坏 
无 事 w: 快 ， 有 附加 重量 
HÈT 长 路 径 eae. wo: 中 等 程度 的 损坏 
Fae w: 慢 ， 有 附加 重量 
有 事故 ws: 严重 损坏 
RAT 短路 径 ae vis: 快 ， 无 附加 重量 
长 路 径 Fe We: 严重 损坏 
ERA w: 慢 ， 无 附加 重量 
9-4 ”传送 机 器 人 的 一 个 决策 树 。 和 矩形 节点 表示 机 器 人 能 够 做 出 的 决策 - 
圆圈 节点 表示 机 器 人 在 做 决策 之 前 无 法 观察 到 的 随机 因素 
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【 例 9-5) 在 例 9-4 中 共有 两 个 决策 变量 ， 一 个 对 应 于 决定 机 器 人 是 否 使 用 垫子 ， 另 
一 个 对 应 于 决定 走 哪 条 路 径 。 有 一 个 随机 变量 ， 它 确定 是 否 发 生 事故 。 共 存在 8 个 可 能 情 
景 ， 对 应 于 图 9-4 决策 树 中 的 8 条 路 径 。 

Agent 应 该 做 出 什么 决定 取决 于 快速 到 达 这 一 要 求 的 紧迫 程度 、 垫 子 的 重量 、 为 减少 
发 生 严 重 事 故 至 中 等 事故 造成 的 损失 而 付出 的 代价 及 发 生 事故 的 可 能 性 大 小 。 

命题 9. 3 的 证 明明 确 了 对 于 结果 的 愿望 程度 的 度量 方法 。 假 设 我 们 决定 效用 的 取 值 范 
围 是 L0，100]。 首 先 ， 选 择 最 好 的 结果 ， 即 ws ， 并 指定 其 效用 为 100; 最 差 的 结果 是 w, 
因此 指定 其 效用 为 0。 对 于 其 他 的 每 一 个 情景 ， 可 考虑 为 介 于 w 与 ws 之 间 的 一 次 抽奖 。 
例如 ，wo 可 能 具有 的 效用 为 35， 意 味 着 Agent 对 于 wo MEO. 35:ws, 0. 65:zoi] 是 同等 对 
待 、 没 有 偏好 的 。 结 果 w 比 结 果 w: 稍 好 ， 而 的 效用 可 设 为 30。 结 果 w 的 效用 可 设 
为 95 ， 因 为 它 只 比 结果 w 稍 差 。 < 

【 例 9-6] 在 疾病 诊断 中 ， 决 策 变 量 对 应 于 各 种 治疗 和 检查 。 效 用 的 大 小 依 顿 于 检查 
和 治疗 的 成 本 ， 病 人 的 情况 是 好 转 、 不 变 还 是 死亡 ， 病 人 有 短期 痛苦 还 是 有 长 期 痛苦 。 治 
疗 病人 的 结果 依赖 于 病人 接受 的 治疗 、 病 人 的 生理 及 疾病 的 具体 情况 (可 能 有 些 具 体 情 况 
无 法 知晓 )。 尽 管 我 们 这 里 使 用 了 医疗 诊断 的 术语 ， 但 这 个 方法 对 于 人 工 制品 (比如 飞机 ) 
的 诊断 同样 适用 。 < 

在 一 个 一 次 性 的 决策 中 ，Agent 为 每 一 个 决策 变量 选择 一 个 值 。 这 可 以 通过 视 所 有 决 
策 变量 为 一 个 组 合 决策 变量 的 方法 来 建立 模型 。 该 组 合 决策 变量 的 值 域 为 每 一 个 决策 变量 
的 值 域 的 叉 乘 。 该 组 合 决策 变量 记 为 卫 。 

每 一 个 情景 o 对 应 决策 变量 DD 的 一 个 赋值 ， 同 时 对 应 每 一 个 随机 变量 的 赋值 。 

一 个 单一 决策 (single decision) 是 给 决策 变量 的 一 次 赋值 。 单 一 决策 D=d 的 期 望 效 
FACexpected utility) 2: 

eU|D=d4)= >) Us) Xx Pw) 


aHa) 
其 中 Po EER o 的 发 生 概率 ，U(w) 是 情景 o 的 效用 U 的 取 值 ; o D= d) WA VBR 
策 变量 D 在 情景 w 下 取 值 4;。 因 此 ， 期 望 效 用 的 计算 就 是 已 选择 合适 决策 的 情景 之 和 。 
最 优 单一 决策 (optimal single decision) 是 期 望 效用 最 大 的 决策 ， 即 DD 二 dd,。: 是 一 个 最 
优 决 策 ， 如 果 有 : 
eU|D= dw) = max wU |D = d,) 


di E dmt D) 


其 中 dom(D) 是 决策 变量 D 的 值 域 。 因 此 有 : 
din = arg ， max eU|D = d;) 


【 例 9-7] 例 9-4 中 的 传送 机 器 人 问题 是 一 个 单一 决策 问题 。 在 该 问题 中 ， 机 器 人 不 
得 不 决定 是 否 使 用 垫子 的 变量 Wear _Pads 和 指示 走 哪 条 路 的 变量 Which Way 的 取 值 。 单 
一 决策 是 决策 变量 的 复合 (Wear_Pads，Which _Way)。 对 每 一 个 决策 变量 的 每 一 次 赋值 
都 有 一 个 期 望 的 值 。 例 如 ，Wear_Pads 二 true \ Which_Way 二 short 的 期 望 效用 是 : 
e(U | wear_pads A Which_Way= short) 
= P(accident | wear_pads A Which_way= short) X utility Cw) 
+(1—P (accident | wear_pads \ Which_way=short)) X utility (w, ) 


其 中 情景 w Aw, 在 图 9-4 PARR. wear_pads WE XÆ Wear_Pads=true. a 
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单 阶段 决策 网 络 


决策 树 是 一 个 基于 状态 的 表示 ， 因 为 各 个 情景 对 应 着 最 终 的 状态 。 然 而 ;使 用 特征 
(用 变量 表示 ) 来 表示 和 推理 决策 过 程 更 加 自然 高 效 。 

单 阶 段 决策 网 络 (single-stage decision network) 是 信念 网 络 的 一 个 扩展 ， 它 有 三 类 节点 ，: 

。 决策 节点 ， 用 和 矩形 表示 ， 代 表 了 决策 变量 。Agent 为 每 一 个 决策 变量 选择 一 个 取 

值 。 对 于 有 多 个 决策 变量 的 情况 ， 我们 假设 决策 节点 有 一 个 完整 的 顺序 ， 并 和 且 称 
该 顺序 中 出 现在 决策 节点 DD 之 前 的 决策 节点 为 节点 DD 的 父 节点 。 

。 机 会 节点 ， 用 椭圆 表示 ， 代 表 了 随机 变量 。 这 些 节 点 的 表示 与 信念 网 络 中 节点 的 
表示 方法 一 致 。 每 一 个 机 会 节点 有 一 个 相关 联 的 值 域 及 一 个 由 其 父 节点 给 出 的 条 
件 概率 。 与 信念 网 络 一 样 ， 机 会 节点 的 父 节 点 表示 条 件 依 赖 : 给 定 了 父 节 点 后 ， 
一 个 变量 独立 于 其 子孙 节点 。 在 一 个 决策 网 络 中 ， 机 会 节点 和 决策 节点 都 可 以 作 
为 机 会 节点 的 父 节点 。 

。 效用 节点 Cutility node)， 用 菱形 表示 ， 代 表 了 效用 。 效 用 节点 的 父 节 点 是 效用 所 

依赖 的 变量 。 机 会 节点 和 决策 节点 都 可 成 为 效用 节点 的 父 节 点 。 

每 一 个 机 会 变量 和 每 一 个 决策 变量 都 有 一 个 关联 的 值 域 ， 但 没有 值 域 与 效用 节点 相关 
联 。 昌 然 机 会 节点 代表 了 随机 变量 ,决策 节点 代表 了 决策 变量 ,但 却 没有 效用 变量 与 效用 
节点 相 联 系 。 效 用 节点 为 其 父 节点 提供 了 一 个 函数 。 

与 一 个 决策 网 络 相 联系 的 有 为 每 一 个 机 会 节点 设置 的 条 件 概率 (由 其 父 节点 提供 , 与 
信念 网 络 中 的 情况 一 样 )， 还 有 作为 效用 节点 的 父 节 点 的 函数 ， 该 函数 用 于 表示 效用 。 在 
决策 网 的 说 明 中 ， 没 有 表格 与 决策 节点 相 联 系 。 

【 例 9-8〗 图 9-5 给 出 了 例 9-4 的 一 个 决策 
网 络 的 表示 。 这 里 共 需 做 出 两 个 决策 : 走 哪 条 
路 和 是 否 戴 垫 子 。 是 否 发 生 事故 仅 取决 于 走 哪 
条 路 。 效 用 依赖 于 上 述 三 个 变量 。 

这 个 决策 网 络 需 要 两 个 因子 : 一 个 代表 了 发 
生 事 故 的 条 件 概率 P(Accident |WhichWay), 3 
一 个 代表 了 效用 (该 效用 是 变量 WhichWay、 


Accident 和 WearPads KAZO. E 9-5 中 给 出 st 
了 这 两 个 因子 的 取 值 。 < long 


单 阶段 决策 网 络 的 一 个 策略 (policy) 是 对 每 [WearPads WhichWay Accident | 效用 | 
一 个 决策 变量 的 一 种 赋值 。 每 一 个 策略 都 有 一 
个 期 望 效 用 ， 即 在 该 策略 的 条 件 下 ， 效 用 的 条 
件 期 望 值 。 一 个 最 优 策略 Coptimal policy) 是 期 
望 效用 最 大 的 策略 。 也 就 是 说 ， 不 存在 其 他 的 、 
具有 更 高 期 望 效 用 的 策略 。 

图 9-6 说 明了 在 单 阶段 决策 网 络 中 如 何 使 
用 变量 消除 的 方法 来 发 现 一 个 最 优 策略 。 在 前 
去 不 相关 的 节点 和 综合 所 有 随机 变量 之 后 ， 将 图 9-5 传送 机 器 人 的 单 阶段 决策 网 络 
只 剩 下 一 个 代表 了 每 一 个 决策 变量 组 合 的 期 望 效 用 的 因子 。 这 个 因子 不 必 是 在 所 有 决策 变 
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量 之 上 的 一 个 因子 ， 不过， 那些 不 包含 在 内 的 决策 变量 与 最 终 决 策 也 不 会 有 关系 。 


: procedure OptimizeSSDN(DN) 
Inputs 

DN, 一 个 单 阶段 决策 网 络 
Output 

一 个 最 优 策略 及 其 期 望 效用 
剪 去 所 有 不 是 效用 节点 的 祖先 节点 的 节点 ; 
概括 消除 所 有 的 机 会 节点 ; 
一 一 在 这 个 阶段 ， 只 剩 下 一 个 由 效用 导出 的 因子 F: 
iE F PRRI v; 
记 使 效用 的 取 值 最 大 的 赋值 方案 为 d; 
返回 dd 和 和 vv 


1 

2: 
3: 
4; 
5: 
6: 
7; 
8: 
9: 
0; 
l: 


1 
1 





图 9-6 单 阶段 决策 网 络 的 变量 消除 


【 例 9-91 考虑 在 图 9-5 所 示 的 决策 网 络 上 运行 OptimizeSSDN。 没 有 节点 可 被 前 去 ， 
因此 只 有 随机 变量 Accident 可 以 合并 求 和 。 为 了 这 样 做 ， 该 网 络 上 的 两 个 因子 需要 乘 起 来 
(因为 它们 都 包含 有 变量 Accident), HWA Accident， 最 后 得 到 下 面 的 因子 : 


Waral WaWa 


0. 2 * 35 +0. 8* 95=83 
0.01# 30-0. 99 * 75=74. 55 


0. 2 # 3+0. 8 * 100=80. 6 
0. 01 * 0-+0. 99 * 80=79. 2 





因此 ， 具 有 最 大 值 的 策略 ， 即 最 优 策略 ， 是 走 较 短路 径 并 戴 垫 子 ， 其 期 望 效用 是 838。 4 


9.3 FRAR 


一 般 来 说 ， 在 对 其 所 处 环境 一 无 所 知 的 情况 下 ，Agent 既 不 会 作出 多 个 决策 ， 也 不 会 
作出 哪怕 一 个 决策 。Agent 作出 决策 的 典型 情景 是 这 样 的 : Agent 根据 其 对 所 处 环境 的 观 
察 决定 要 做 出 一 个 动作 ， 执 行 那个 动作 ， 观 察 动作 结果 对 环境 的 影响 ， 然 后 根据 观察 作 下 
一 个 决策 ， 依 此 类 推 。 后续 的 动作 基于 其 所 观察 到 的 内 容 及 前 一 动作 对 环境 所 产生 的 影 
响 。 在 这 个 情境 下 ， 执 行 一 个 动作 的 唯一 原因 是 为 将 来 的 动作 提供 信息 。 

序 贯 决策 问题 (sequential decision problem) 是 一 系列 的 决策 ， 其 中 需要 为 每 一 个 决策 
考虑 如 下 问题 : 

* Agent 能 够 做 哪些 动作 。 

。 Agent 不 得 不 开始 执行 动作 时 ， 它 能 够 获得 或 将 会 获得 的 信息 。 

。 每 个 动作 对 环境 产生 的 影响 。 

。 Agent 对 上 述 影响 的 期 望 程度 。 

【 例 9-10】 考虑 一 个 简单 的 诊断 情况 ， 医生 首先 选择 为 病人 做 一 些 检查 ， 然 后 根据 这 
些 检查 的 结果 制定 病人 的 治疗 方案 。 医 生 考虑 决定 做 某 项 检查 的 原因 是 这 个 检查 的 结果 能 
够 为 治疗 的 下 一 阶段 提供 支持 。 检 查 的 结果 可 能 作为 制定 治疗 方案 时 的 信息 ， 而 不 能 作为 
决定 做 该 检查 时 的 信息 。 做 检查 通常 是 一 个 好 的 做 法 ， 即 使 该 检查 会 伤害 病人 。 

医生 可 选择 的 行为 是 可 供 检 查 的 项 目 和 可 供 选 择 的 治疗 方案 。 对 于 做 出 检查 的 决策 来 
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说 ， 可 用 的 信息 将 是 病人 表现 出 来 的 症状 。 对 于 制定 治疗 方案 来 说 ， 可 用 的 信息 包括 病人 
的 症状 、 已 检查 的 项 目 及 这 些 检查 的 结果 。 检 查 的 影响 是 检查 的 结果 ， 其 取决 于 检查 的 项 
目 和 病人 的 疾病 。 治 疗 的 影响 是 治疗 所 能 起 到 的 一 些 作用 及 病 大 的 疾病 。 效 用 包括 检查 的 
成 本 、 短 期 带 给 病人 的 痛苦 和 不 便 及 长 期 的 预后 情况 。 < 


9.3.1 决策 网 络 


决策 网 络 (decision network, ERR i] A (influence diagram)) 是 有 限 的 序 贯 决策 问题 
的 图 形 化 表示 。 决 策 网 络 扩展 了 信念 网 络 以 包含 决策 变量 和 效用 ， 也 扩展 了 单 阶段 决策 网 
络 以 允许 序 贯 决策 。 

特别 的 ， 决 策 网 络 是 一 个 有 向 无 环 图 CDAG)， 其 中 有 机 会 节点 、 决 策 节 点 和 效用 节 
点 。 它 对 单 阶段 决策 网 络 进行 了 扩展 ， 使 得 机 会 节点 和 决策 节点 都 可 成 为 决策 节点 的 父 节 
点 。 决 策 节点 的 人 边 表示 在 作 决 策 时 那些 可 用 的 信息 。 机 会 节点 的 入 边 表示 概率 依赖 关 
系 。 效 用 节点 的 入 边 表示 效用 所 依赖 的 内 容 。 

无 遗忘 (no-forgetting)Agent 的 决策 是 完全 有 序 的 ， 并且 记得 它 之 前 做 出 的 决策 及 做 
出 那些 决策 时 可 用 的 信息 。 无 遗忘 Agent 网 络 中 的 决策 节点 是 完全 有 序 的 ; 如 果 决 策 节 点 
也 在 决策 节点 D; 之 前 ， 则 有 D: 2D, 节点 的 父 节点 ， 且 D: 的 所 有 父 节 点 也 是 DD; 的 父 节 
点 。 因 此 ,在 D: 节点 已 知 的 所 有 信息 在 D; 节点 上 同样 有 效 ， 且 在 D 节点 选择 的 动作 也 
MAD, 节点 可 用 信息 的 一 部 分 。 无 遗忘 条 件 足 以 确保 下 面 的 定义 是 有 意义 的 ， 且 下 面 的 
算法 能 够 工作 。 

【 例 9-11) 图 9-7 是 Agent 外 出 时 用 以 
决定 是 否 带 雨伞 的 一 个 简单 的 决策 网 络 。 
Agent 的 效用 取决 于 天 气 情况 和 它 是 否 带 了 
Me, Am, Agent 并 不 观察 天 气 情况 ， 而 
是 仅 观察 天 气 预 报 的 情况 。 而 天 气 预 报 的 情 
况 条 件 依赖 于 天 气 情 况 。 

作为 决策 网 络 的 一 部 分 ， 设 计 者 必须 明 
确 每 一 个 随机 变量 的 值 域 及 每 一 个 决策 变量 的 值 域 。 假 设 随机 变量 Weather 的 值 域 是 {no- 
rain, rain}, EIL Œ Forecast 的 值 域 是 {sunny，rainy，cloudy}， 决 策 变量 Umbrella 
的 值 域 是 {takeIt:，lieavelt}。 效 用 节点 没有 值 域 。 设 计 者 还 必须 明确 随机 变量 在 其 父 节 点 
的 作用 下 的 发 生 概 率 。 假 设 PC(Weather) 的 定义 如 下 : 

P(Weather = rain) = 0,3 
而 PCForecast|Weather) 的 定义 如 下 : 





图 9-7 根据 天 气 情况 决定 是 否 带 雨伞 的 决策 网 络 


Weather Forecast Probability 





norain Sunny 0.7 

norain cloudy 0.2 

norain Rainy 0.1 
rain Sunny 0.15 
rain cloudy 0. 25 
rain Rainy 0.6 


RIF ”不 确定 性 规划 257 


假设 效用 函数 Utility (Weather, Umbrella) ih F: 


Weather Umbrella Utility 





norain takelt 20 
norain leavelt 100 
rain takelt 70 


rain leavelt 0 


对 于 决策 变量 Umbrella ， 没 有 相应 的 取 值 列表 。 确 定 该 变量 的 取 值 是 规划 者 的 任务 ， 且 依 
赖 于 天 气 预报 的 情况 。 < 

【 例 9-12) 图 9-8 是 表示 例 9-10 的 场景 
的 一 个 决策 网 络 。 病 人 症状 取决 于 疾病 。 要 
做 哪些 检查 取决 于 有 哪些 症状 。 检 查 结果 取 
决 于 疾病 和 所 做 的 检查 。 治 疗 取 决 于 症状 、 
做 了 哪些 检查 及 检查 结果 。 结 果 依 赖 于 疾病 
和 治疗 。 效 用 依赖 于 检查 的 成 本 和 副作用 ， 
以 及 治疗 的 结果 。 

注意 ， 做 出 检查 决策 和 治疗 决策 的 诊断 
处 理 并 不 能 确切 地 知道 病人 得 了 什么 病 ， 除 
非 检查 结果 能 够 非常 确定 这 一 点 (然而 ， 通 常 都 不 是 这 种 情况 ) 。 < 

【 例 9-13] 9-9 是 扩展 了 图 6-1 信念 
网 络 的 决策 网 络 。Agent 能 够 接收 到 人 们 离 
开 建 筑 物 的 报告 ， 并 必须 做 出 是 否 打 电 话 给 
消防 部 门 的 决定 。 在 打 电 话 之 前 ，Agent 能 
够 检查 烟雾 情况 ， 但 这 需要 付出 一 些 成 本 。 
效用 依赖 于 是 否 打 了 电话 、 是 否 有 火 情 及 检 
查 烟雾 情况 的 成 本 。 

在 这 个 序 贯 决策 问题 中 ， 需 要 作 击 两 个 
RR. 4, Agent 必须 决定 是 否 检 查 烟 
雾 。 是 否 有 人 离开 建筑 物 的 报告 是 作 这 项 决 
策 前 可 以 获得 的 信息 。 甚 次 ，Agent 必须 做 出 是 否 给 消防 部 门 打 电话 的 决策 。 在 作 这 个 决 
Rit, Agent 将 需 知道 是 否 有 一 个 报告 、 是 否 检查 了 烟雾 及 是 否 看 到 了 烟雾。 假设 所 有 这 
些 变量 都 是 二 值 的 。 

决策 网 络 必须 的 信息 包括 信念 网 络 的 条 件 概 率 ， 以 及 

。 P(SeeSmoke|Smoke, CheckSmoke): 如 和 何 看 到 烟雾 取决 于 Agent 是 否 检 查 有 烟雾 

及 是 否 有 烟雾 。 假 设 Agent 有 一 个 工作 完好 的 烟雾 传感器 。 此 时 ， 当 且 仅 当 检 查 
了 是 否 有 烟雾 并 且 确 实 有 烟雾 时 ，Agent 就 能 看 到 烟雾 。 (参看 习题 9. 6) 
Utility (CheckSmoke, Fire, Call): 效用 的 情况 取决 于 Agent ESRA TAF., 
是 否 有 火 情 及 是 否 给 消防 部 门 打 了 电话 。 图 9-10 列 出 了 效用 的 信息 。 这 个 效用 函 
数 表 明 打 电话 的 成 本 是 200、 检 查 是 否 有 烟雾 的 成 本 是 20、 不 过 在 有 火 情 而 没有 
打 电 话 的 情况 下 成 本 是 5000。 效 用 是 成 本 的 负数 。 





图 9-8 医生 诊断 的 决策 网 络 





图 9-9 报警 问题 的 决策 网 络 
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call 
do not call 
call 
do not call 
call 
do not call 


call 


do not call 
图 9-10 报警 决策 网 络 的 效用 ÉJ 





9.3.2 策略 


策略 具体 说 明 Agent 在 所 有 不 可 预见 的 情况 下 该 做 什么 。Agent 希望 找到 一 个 最 优 的 
390] 策略 ， 即 能 够 最 大 化 期 望 效 用 的 策略 。 

一 个 策略 由 对 应 于 每 一 个 决策 变量 的 决策 函数 组 成 。 一 个 决策 变量 的 决策 函数 (deci- 
sion function) 是 对 于 决策 变量 的 父 节 点 变量 的 每 一 个 赋值 而 明确 决策 变量 取 值 的 一 个 函 
数 。 因 此 ， 一 个 策略 就 明确 规定 了 Agent 在 面 对 所 有 可 能 的 取 值 时 应 该 采取 的 行动 。 

【 例 9-14] 在 例 9-11 中 ， 有 一 些 策略 如 下 : 

。 ARRET. 

。 只 在 天 气 预 报 为 rainy HAH. 

。 只 在 天 气 预 报 为 sunny HAH. 

共有 8 种 不 同 的 策略 ， 原因 是 天 气 预 报 只 有 三 种 情况 ， 且 对 于 每 一 种 情况 只 有 两 个 选择 。 本 

【 例 9-15) 在 例 9-13 中 ,一 个 策略 需要 明确 CheckSmoke 的 决策 函数 和 Call 的 决策 
函数 。 其 中 一 些 策略 如 下 : 

。 从 不 检查 烟雾 情况 ， 在 接 到 报告 后 打 电 话 。 

。 总 是 检查 烟雾 情况 ， 在 看 到 烟雾 后 打 电 话 。 

。 接 到 报告 后 才 检 查 烟雾 情况 ， 在 接 到 报告 并 看 到 烟雾 后 打 电 话 。 

。 -没有 接 到 报告 则 检查 烟雾 情况 ， 没 有 看 到 烟雾 则 打 电 话 。 

。 总 是 检查 烟雾 情况 ,从 不 打 电 话 。 

在 这 个 例子 中 ， 闪 有 1024 个 不 同 的 策略 (因为 每 个 变量 都 是 二 值 的 )。 对 于 检查 烟雾 
变量 CheckSmoke， 共 有 4 个 决策 函数 。 对 于 打 电 话 变 量 Call 共有 2 个 决策 函数 ; 对 于 


Call 变量 的 8 个 父 节点 变量 的 任意 取 值 ，Agent 可 选择 打 电 话 也 可 选择 不 打 电 话 。 < 
策略 的 期 望 效 用 
可 以 通过 确定 Agent 执行 策略 的 期 望 效用 来 评价 策略 的 优 劣 。 一 个 理性 的 Agent 应 采 
纳 最 大 化 其 期 望 效用 的 策略 。 


一 个 可 能 情景 (possible world) 为 每 一 个 随机 变量 和 决策 变量 确定 其 取 值 ;一 个 可 能 情景 
不 具有 发 生 概 率 ， 直 到 确定 了 所 有 的 决策 变量 的 取 值 。 如 果 一 个 可 能 情景 中 的 每 一 个 决策 变 
量 的 取 值 等 于 一 个 策略 对 应 的 决策 函数 为 每 个 决策 变量 选 定 的 取 值 ， 则 称 该 可 能 情景 满足 该 
策略 。 如 果 包 是 一 个 可 能 情景 ,x 是 一 个 策略 ， 则 wx 定义 为 可 能 情景 ww 满足 策略 x。 
一 个 可 能 情景 对 应 着 一 个 完整 的 动作 顺序 的 历史 选择 记录 及 所 有 随机 变量 和 决策 变量 
(包括 所 有 观察 到 的 变量 ) 的 确切 取 值 ; 认识 到 这 一 点 很 重要 。 在 Agent 采用 策略 x 时， 如 
果 可 能 情景 是 一 个 可 能 历史 的 演变 ， 则 它 满足 策略 x。 可 满足 性 约束 强化 了 这 样 的 直 
H: Agent 实际 上 将 执行 策略 x 为 每 一 个 可 能 的 观察 规定 的 动作 。 
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策略 的 期 望 效 用 为 : 
en) = Jj Ulw) X Pw) 


rid 
其 中 Pl(w) 表 示 情 景 w 发 生 概率 ， 其 取 值 为 在 各 机 会 节点 的 父 节 点 给 出 的 条 件 概 率 的 前 提 
下 各 机 会 节点 的 概率 的 乘积 : U(w) 表 示 情 景 w 下 的 效用 。 
[B 9-16] 在 例 9-11 H, Hm 为 如 下 策略 : 如 果 天 气 预 报 是 多 云 则 带 两 企 ， 否 则 不 
带 企 。 该 策略 的 期 望 效用 是 满足 该 策略 的 所 有 情景 的 效用 的 平均 : 
elm) = P(norain) P( sunny | norain Utility Gerain ,leavelt) 
+P (rain) P (cloud y'| norain Utility (norain ;takelt) 
+ Plrorain) P (rainy | norain Urility (norain , leavelt) 
+ P (rain) P(sunny | rain Utility (rain -leavelt) 
+ P(rain) P(cloudy | rain Utility (rain ,takelt) 
+ P(rain) P(rainy | rain Utility (rain ,leavelt) , 
其 中 norain 表示 Weather =norain, sunny 表示 Forecast=sunny, WIKRE. TERE. RRR 
AE TCL h RR EE. EK TF RADR- < 
最 优 策略 r 是 对 于 所 有 的 策略 x 有 ee” ) 三 e(Gr) ， 即 一 个 最 优 策 略 是 其 期 望 效用 最 大 的 策略 。 
假设 一 个 二 值 的 决策 节点 有 个 二 值 的 父 节 点 ， 则 对 父 节 点 的 不 同 赋值 共有 2" 种 情 
况 ， 对 决策 节点 来 说 共有 2” 个 不 同 的 决策 函数 。 策 略 的 数量 等 于 各 个 决策 变量 的 不 同 的 
决策 函数 的 数量 之 积 。 这 样 ， 即 便 是 很 小 的 例子 也 会 有 巨 量 的 策略 。 因 此 ， 通 过 枚 举 策略 
集合 来 查找 最 优 策略 的 算法 非常 低 效 。 


9.3.3 决策 网 络 的 变量 消除 


幸运 的 是 ， 我 们 不 必 枚 举 全 部 的 策略 ， 而 是 可 以 使 用 变量 消除 (variable elimination， 
VE) 的 方法 来 找到 最 优 策 略 。 该 方法 的 思想 是 首先 考虑 最 后 一 个 决策 ， 查找 其 父 节 点 的 每 
一 个 取 值 的 最 优 决策 ， 并 生成 产生 这 些 最 大 取 值 的 一 个 因子 。 这 样 就 形成 了 一 个 新 的 决策 
网 络 ， 但 少 了 一 个 决策 。 如 此 迭代 执行 ， 最终 求 解 问题 。 

图 9-11 给 出 了 在 决策 网 络 中 使 用 VE 的 方法 。 实 际 上 它 计 算 了 一 个 最 优 决 策 的 期 望 效 
用 。 该 算法 根据 某 消除 排序 结果 消除 了 不 作为 决策 节点 的 父 节 点 的 随机 变量 。 消 除 排序 不 
影响 结果 的 正确 性 ， 使 用 排序 的 目的 是 提高 效率 。 

















l: procedure VE DN(DN): 
2: Inputs 


3: DN, 一 个 单 阶段 决策 网 络 
4; Output 
5: 一 个 最 优 策略 及 其 期 望 效用 


6: Local 

7% DFs: 决策 函数 的 集合 ， 初 始 为 空 

8: Fs; 因子 的 集合 

9: ” 删 去 效用 节点 的 所 有 非 父 节 点 的 节点 

10， 在 集合 Fs 中 为 每 一 个 条 件 概率 创建 一 个 因子 

ll: ”在 Fs 中 为 效用 创建 一 个 因子 

12, while RAA RR TA do 

13: 合并 不 作为 决策 苑 点 的 父 节点 的 节点 的 随机 变量 

14; DEEPER. ATF PH-+ARFADMEAKLFAH—-ATHR 
15: 把 max, F MA Fs 中 

16; 将 arg max, F jm A DFs 中 

FFE IT A THe HY BL IL SE HL 
返回 DFs Aiwa ae AF AIRE 


FA 9-11 决策 网 络 的 变量 消除 
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在 消除 了 所 有 没有 作为 决策 节点 的 父 节 点 的 随机 变量 之 后 ， 必 然 存 在 三 个 包含 在 一 个 
因子 中 的 决策 变量 及 其 父 节点 的 某 个 子 集 ， 原 因 是 Agent 是 无 遗忘 的 。 这 是 行为 顺序 中 的 
最 后 一 个 动作 。 

为 消除 决策 节点 ，VE_DN 算法 中 为 此 决策 选择 使 效用 最 大 的 那个 值 。 这 个 最 大 化 在 
剩余 的 变量 上 生成 了 一 个 新 的 因子 ， 及 为 消除 掉 的 决策 变量 生成 的 一 个 决策 函数 。 这 个 用 
最 大 化 的 方法 生成 的 决策 函数 是 一 个 最 优 策略 的 组 成 部 分 。 

【 例 9-17] 在 例 9-11 中 ， 共 有 三 个 初始 的 因子 ， 分 别 表示 天 气 的 概率 PC(Weather)、 天 气 
预报 的 条 件 概率 P (Forecast | Weather) 和 效用 函数 Utility (Weather, Umbrella), H i ÑE 
Weatjher， 方 法 是 将 三 个 因子 相 乘 ， 然 后 合并 Weather 并 给 Forecast 和 Umbrella 生成 一 个 因子 : 





Forecast Umbrella Value 
takelt 
sunny leavelt 49.0 
cloudy takelt 8.05 
cloudy leavelt 14.0 
rainy takelt 14,0 
rainy leavelt 70 


为 通过 Umbrella 来 最 大 化 因子 ， 针 对 每 一 个 -FEorecas 的 取 值 ，VE_DN 算法 选择 使 得 因 
FRA Umbrella 的 取 值 。 例 如 ， 当 Forecast 的 取 值 是 sunny 时 ，Agent 应 该 把 雨伞 放 
在 家 里 ， 因 为 此 时 因子 的 值 是 49.0。 

VE_DN 算法 为 Umbrella 建立 一 个 最 优 的 决策 函数 ， 该 函数 为 Umbrella 选择 的 值 对 
于 每 一 个 Forecast 的 取 值 都 会 使 因子 的 取 值 最 大 : 






Forecast 






leavelt 
cloudy 
rainy 


leavelt 
takelt 


此 时 会 生成 一 个 新 的 因子 ， 该 因子 的 取 值 是 上 面 对 应 于 每 一 个 Forecast 取 值 的 因子 : 


Forecast 





sunny 49.0 
cloudy 14.0 
rainy 14,0 


现在 根据 上 述 因子 合并 计算 Forecas， 得 到 的 取 值 是 77.0。 这 就 是 最 优 策略 的 期 望 效用 。 < 
【 例 9-18] 考虑 例 9-13。 在 合并 变量 之 前 有 如 下 的 因子 : 








Meaning Factor 
P( Tampering) fo (Tampering) 
P( Fire) Jil Fire) 
P(Alarm| Tampering, Fire) f: Tampering. Fire, Alarm) 
P(Smoke | Fire) fa (Fire, Smoke) 
P( Leaving | Alarm) f Alarm, Leaving) 
P(Report | Leaving) fs (Leaving, Report) 
P(SeeSmoke | CheckSmoke, Smoke) fs Smoke, SeeSmoke, CheckSmoke) 


utility( Fire, CheckSmoke, Call) fr (Fire, CheckSmoke, Call) 
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只 要 选择 了 合适 动作 ， 则 期 望 效用 就 是 发 生 概 率 与 相应 效用 的 乘积 。 

VE_DN 算法 合并 不 作为 决策 节点 的 父 节点 的 随机 变量 。 因 此 ， 需 合并 Tampering, 
Fire, Alarm, Smoke Ñ Leaving 变量 。 在 消除 这 些 变量 之 后 ， 只 剩 下 一 个 因子 ， 该 因子 
的 部 分 内 容 如 下 (保留 两 位 小 数 ): 


Report SeeSmoke CheckSmoke Call 





rt ft e e 
$ 
-证 
， 
和 Tee P eee: a ee 
-3 ae 
: | 
LS 
4 
Do 
nan 


根据 这 个 因子 ， 可 通过 为 Call 选择 一 个 取 值 使 得 对 变量 Report, SeeSmoke 和 
CheckSmoke 的 每 一 组 赋值 都 使 Value 的 取 值 最 大 的 方法 为 Call 创建 一 个 最 优 决 策 函 数 。 
数值 一 1.33 和 一 29.3 的 较 大 者 为 一 1.33， 因此， 当 Report=t, SeeSmoke=t H. 
CheckSmoke= t 时 ， 最 优 的 动作 是 CaU 二 tl( 此 时 的 因子 为 一 1.33)。 对 于 Report, 
SeeSmoke 和 CheckSmoke 的 其 他 取 值 ， 使 用 同样 的 方法 。 

Call 的 一 个 最 优 决 策 函 数 是 : 


Report SeeSmoke CheckSmoke Call 
t t t t 





t t f t 
t f t f 


请 注意 ， 当 SeeSmoke=t, CheckSmoke=f IY. Call 取 任 何 值 都 可 以 。 在 这 种 情况 下 ， 
Agent 计划 做 什么 都 无 关 紧 要 ， 因 为 这 种 情况 实际 上 不 会 出 现 。 

由 最 大 化 Call 而 产生 的 因子 包括 了 针对 Report. SeeSmoke Fil CheckSmoke 的 各 种 取 
值 的 最 大 因子 取 值 : 


Report SeeSmoke CheckSmoke Value 
t t 





t t 
t f 





然后 可 以 合并 SeeSmoke， 得 到 如 下 的 因子 : 





Report CheckSmoke 
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针对 Report 最 大 化 CheckSmoke 得 到 决策 函数 和 因子 如 下 


Report CheckSmoke 
t t 
f f 


Report CheckSmoke 
t 5,01 
f —17. 58 


合并 Report 得 到 期 望 效用 一 22. 60( 考 虑 了 伟人 误差 ) 。 

因此 ， 返 回 的 最 优 策略 可 列 如 下 ; 

checkSmoke<re port 

cali_fire_department~see_smoke 

call_fire_department<re port A ~check_smoke 人 ~see_smoke 

最 后 一 个 规则 永远 也 不 会 用 到 ， 因 为 Agent 根据 最 优 策略 会 在 接收 到 报告 时 检查 烟雾 
情况 。 不 过 ， 在 执行 VE_DN 算法 时 ，Agent 在 优化 Call 时 不 知道 关于 CheckSmoke 的 最 
优 策 略 。Agent 决定 是 否 要 检查 烟雾 时 ， 仅 考虑 可 用 烟雾 信息 做 什么 。 

还 需要 注意 ， 在 这 种 情况 下 ， 尽管 检 查 烟雾 情况 需要 付出 一 些 成 本 ,但 是 这 个 检查 是 
值得 的 ， 因 为 检查 获得 的 信息 很 有 价值 。 a 

下 面 这 个 例子 说 明了 ， 在 VE 算法 优化 决策 时 ， 所 得 的 因子 中 的 决策 变量 是 如 何 包含 
其 父 节点 的 一 个 子 集 的 。 

【 例 9-19〗 考虑 例 9-11， 不 过 增加 了 一 个 从 Weather 到 Umbrella 的 边 ， 也 就 是 说 ， 
Agent 不 仅 要 观察 天 气 情 况 ， 而 且 也 要 考察 天 气 预 报 的 情况 。 此 时 ， 没 有 需要 合并 的 随机 
变量 ， 从 而 生成 的 包含 了 决策 节点 和 其 父 节点 的 一 个 子 集 的 因子 就 是 原始 的 效用 因子 。 因 
此 ， 使 Umbrella 最 大 化 的 决策 薄 数 和 因子 如 下 : 


Weather Umbrella Weather Vatue 
norain leavelt norain 100 


rain takelt rain 70 


HEE, RAMRHARSRRSHKA. MRK ARAN Agent 提供 任 
何 有 用 的 信息 。 

合并 Forecast 得 到 的 因子 均 为 1。 合并 Weather, HP P(Weather =norain) =0.7, 
得 到 的 期 望 效 用 为 0.7X100 十 0. 3X 70=91, <4 


94 信息 与 控制 的 价值 


【 例 9-20] 在 例 9-18 中 ， 检 查 烟雾 的 动作 CheckSmoke 为 火 情 提 供 了 信息 。 检 查 烟雾 
的 成 本 是 20， 并 且 没 有 直接 的 回报 。 然 而 ， 在 一 个 最 优 策略 中 ， 当 有 报告 人 们 离开 建筑 物 
时 做 这 个 检查 是 值得 的 ， 因 为 Agent 可 以 根据 检查 获得 的 信息 做 出 下 一 步 的 动作 。 因 此 ， 
有 关 烟 雾 的 信息 对 于 Agent 来 说 是 很 有 价值 的 。 尽 管 有 关 烟 雾 的 信息 无 法 提供 是 否 有 火 情 
的 完美 信息 ， 但 该 信息 对 于 作出 决策 仍然 非常 有 用 。 < 

从 这 个 例子 得 到 的 一 个 重要 启发 是 搜集 信息 的 动作 ， 正 如 检查 烟雾 的 动作 check_for_ 
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smoke 一 样 ， 可 以 同样 的 方式 用 在 其 他 任何 动作 上 ， 如 打 电 话 给 消防 部 门 call_ fire_ 
department, 一 个 最 优 的 策略 常常 包含 以 搜集 信息 为 唯一 目的 的 动作 ， 只 要 后 续 的 动作 依 
赖 于 该 动作 产生 的 一 些 影响 。 大 多 数 的 动作 都 不 会 仅仅 提供 信息 ， 而 是 更 多 地 对 所 处 环境 
产生 直接 的 影响 。 

.对 于 Agent 来 说 ， 信 息 是 很 有 价值 的 ， 因 为 它 可 帮助 Agent 做 出 更 好 的 决策 。 

信息 i 3 FRE D 的 信息 价值 (value of information) 是 一 个 依赖 于 卫 及 其 后 续 次 策 的 
最 优 策略 在 获得 信息 i 时 的 期 望 效用 减 去 不 能 观察 到 ; 的 最 优 策略 的 期 望 效 用 。 因 此 ， 在 
决策 网 络 中 ， 信 息 价 值 就 是 一 个 含有 以 i 为 DD 及 其 后 续 策 略 的 父 节 点 之 一 的 最 优 策略 的 效 
用 减 去 一 个 不 含有 以 i 为 DD 的 父 节 点 的 最 优 策略 的 效用 。 

【 例 9-21) 在 例 9-11 中 ,考虑 获得 一 个 更 好 的 天 气 预 报 的 价值 。 为 决定 是 否 带 爹 ， 
获得 关于 天 气 的 完全 信息 的 价值 等 于 在 网 络 中 增加 一 条 从 Weather 到 Umbrella 的 边 时 的 
最 优 策略 期 望 效用 (在 例 9-19 中 计算 ， 其 结果 为 91) 减 去 原始 决策 网 络 最 优 策略 的 期 望 效 
用 (在 例 9-11 中 计算 ， 其 结果 为 77)。 因 此 ， 关于 天 气 的 完全 信息 的 价值 是 91 一 77==14。 
这 是 另 一 个 感知 天 气 情 况 的 传感器 的 价值 上 限 。 < 

信息 价值 限定 了 Agent 为 获得 支持 决策 d 的 信息 i 而 愿 付 出 的 代价 (就 效用 的 损失 而 
言 )。 该 数值 是 有 关 决 策 d 的 信息 的 不 完全 信息 的 价值 上 限 。 不 完全 的 信息 是 指 类 似 于 
从 一 个 有 了 噪声 的 传感器 获得 的 信息 i。 为 获得 信息 i 而 付出 的 成 本 不 应 超过 信息 的 价值 。 

信息 的 价值 有 如 下 一 些 有 意思 的 属性 : 

。 信息 价值 不 会 是 负 值 。 最 坏 的 情况 是 Agent 忽略 这 个 信息 。 

。 如 果 一 个 最 优 决策 总 是 做 同一 个 动作 ， 而 与 信息 i 的 取 值 无 关 ， 则 该 信息 i 的 价值 

为 0。 如 果 信 息 i 的 价值 为 0， 则 存在 一 个 不 依赖 于 信息 i 的 最 优 策略 ( 即 不 管 信 息 
i 取 何 值 ，Agent 总 是 选择 同一 个 动作 )。 

在 一 个 决策 网 络 中 ， 作 出 决策 d 时 的 信息 i 的 价值 可 以 通过 考虑 下 面 两 个 决策 网 络 来 
WH: 

。 决策 网 络 中 从 i 到 4 的 边 及 从 i 到 后 续 决 策 的 边 。 

。 决策 网 络 中 没有 这 样 的 边 。 

上 述 两 个 决策 网 络 的 最 优 策略 的 期 望 效用 之 差 即 为 作出 决策 a 时 信息 i 的 价值 。 当 加 
人 从 i 到 4 的 边 会 造成 环 时 ， 需 要 先 做 一 些 处 理 。 

【 例 9-22) 在 报警 问题 的 例子 中 ( 例 9-18)，Agent 可 能 想 知道 安装 一 个 中 继 报警 设 
备 一 一 从 而 可 以 直接 听 到 报警 声 而 不 是 依赖 于 人 们 离开 建筑 物 的 嘲 杂 声 一 一 是 否 值得 。 为 
确定 该 中 继 报 警 设备 的 价值 ， 需 要 考虑 关于 报警 的 完全 信息 的 价值 。 如 果 信 息 价 值 低 于 中 
继 报警 设备 的 成 本 ， 则 就 不 值得 安装 该 设备 了 。 

对 于 检查 烟雾 和 打 电 话 给 消防 部 门 的 决策 ， 关 于 报警 Alarm 的 信息 的 价值 可 这 样 计 
算 : 求解 图 9-9 的 决策 网 络 ， 及 求解 同一 个 决策 网 络 但 包含 了 从 报警 Alarm 到 检查 烟雾 
Check _for_smoke 的 边 和 从 Alarm 到 打 电 话 给 消防 部 门 Call_fire_department 的 边 。 原 始 
的 决策 网 络 的 期 望 效用 是 一 22. 6。 新 的 决策 网 络 中 有 一 个 期 望 效用 为 一 6. 3 的 最 优 策略 。 
两 个 决策 网 络 的 最 优 策略 的 期 望 效 用 之 差 为 16. 3 一 一 这 就 是 Alarm 对 于 决策 Check_for_ 
smoke 的 价值 。 如 果 中 继 报警 设备 的 成 本 为 20， 则 不 值得 安装 该 设备 。 

含有 从 Alarm 到 Call_fire_department 的 边 的 决策 网 络 的 期 望 效 用 为 一 6.3， 与 含有 
从 Alarm 到 Check _for_smoke 的 边 时 的 期 望 效 用 相同 。 在 最 优 策略 中 ，Check_for_smoke 
的 最 优 决 策 函 数 会 忽略 关于 Alarm 的 信息 ， 即 当 Alarm 是 Call_fire_department 的 父 节 
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点 时 ， 根 据 决策 网 络 的 最 优 策略 ，Agent 从 不 会 检查 烟雾 。 < 

控制 价值 (value of control) 明确 说 明 控 制 一 个 变量 的 价值 的 多 少 。 其 最 简单 的 形式 是 
将 一 个 决策 网 络 的 随机 变量 替换 成 决策 变量 ， 并 增加 相应 的 边 构 成 无 遗忘 网 络 时 ， 甚 最 优 
策略 的 期 望 效用 的 变化 量 。 随 机 变量 替换 为 决策 变量 后 ， 期 望 效 用 的 变化 量 不 会 是 负 值 ; 
新 构成 的 决策 网 络 总 有 相等 或 更 高 的 期 望 效用 。 

【 例 9-23) 在 图 9-9 的 报警 决策 网 络 中 ， 你 可 能 会 对 控制 意外 干扰 感 兴趣 。 为 此 可 佑 
算 为 增加 安全 性 而 防止 意外 干扰 的 价值 。 为 计算 这 一 点 ， 可 比较 图 9-9 中 的 决策 网 络 的 期 
望 效用 与 将 随机 变量 意外 干扰 Tampering 薪 换 为 决策 变量 5 同时 也 成 为 另外 两 个 决策 节点 
的 父 节 点 ) 后 的 期 望 效用 。 

初始 的 决策 网 络 的 期 望 效 用 是 一 22.6。 首 先 考虑 该 变量 的 价值 。 如 果 Tampering fF 
H Call 的 父 节 点 ， 则 新 的 期 望 效用 为 一 21. 30。 如 果 Tampering 作为 Call W CheckSmoke 
的 父 节 点 ， 则 新 的 期 望 效用 为 一 20. 87, 
”为 确定 该 变量 的 控制 价值 ， 先 将 Tampering 节点 改 为 决策 节点 并 将 它 作 为 另外 两 个 
决策 节点 的 父 节点 。 新 构成 的 决策 网 络 的 期 望 效用 为 一 20.71。 请 注意 ， 在 这 里 控制 价值 
比 信息 价值 高 。 

在 原始 的 决策 网 络 中 ， 意 外 干扰 的 控制 价值 为 一 20.71 一 (一 22.6) 王 1.89。 在 观察 意 
外 干扰 的 情况 下 ， 意 外 干扰 的 控制 价值 为 一 20. 71 一 (20. 87) =0. 16. < 

上 述 描 述 适 用 于 随机 变量 的 父 节 点 在 该 随机 变量 变 成 决策 变量 后 成 为 决策 变量 的 父 节 
点 的 情况 。 在 这 种 情形 下 ， 控 制 价值 从 不 会 是 负 值 。 然 而 ， 如 果 决 策 变量 的 父 节 点 没有 包 
括 原 随 机 变量 的 所 有 父 节 点 ， 则 控制 价值 有 可 能 少 于 信息 价值 。 一 般 来 说 ， 在 考虑 将 一 个 
随机 节点 转换 成 决策 节点 时 ， 必 须 明 确 决策 节点 可 用 的 信息 。 

【 例 9-24) 考虑 将 图 9-9 中 的 变量 Smoke 变 成 决策 变量 的 情况 。 如 果 火 情 Fire 是 决 
策 变量 Smoke 的 父 节点 ， 则 它 必 然 是 Call 的 一 个 父 节 点 ， 从 而 构成 一 个 无 遗 筷 网 络 。 在 
Smoke 决策 早 于 决策 checkSmoke 时 ， 生 成 的 网 络 的 期 望 效用 为 一 2.0。 在 这 种 情况 下 ， 将 
Smoke 转换 为 决策 变量 的 原因 是 对 Fire 的 观察 。 此 时 ， 最 优 的 策略 是 如 果 有 火 情 则 打 电 
话 给 消防 部 门 ， 否 则 就 不 打 电 话 。 

假设 将 Smoke 转换 为 决策 变量 ， A Fire 不 再 作为 该 决策 的 条 件 。 也 就 是 说 ，Agent 
不 得 不 自行 决定 是 否 有 烟雾 ， 且 Fire 也 不 作为 其 他 决策 的 条 件 。 这 种 情况 可 以 建 模 为 
Smoke 是 决策 变量 且 没 有 父 节 点 。 此 时 ， 网 络 的 期 望 效 用 是 一 23. 20 一 一 劣 于 初始 的 决策 
网 络 ， 其 原因 是 盲目 地 控制 Smoke 造成 失去 了 感知 Fire 的 能 力 。 < 


9.5 决策 过 程 


9.4 节 中 的 决策 网 络 具 有 有 限 个 阶段 和 部 分 可 观察 的 范围 。 本 节 讨 论 具有 无 限定 时 域 
和 无 穷 时 域 的 问题 。 

通常 ，Agent 必须 为 一 个 持续 的 过 程 进行 推理 ， 即 它 不 知道 需要 推理 多 少 步 。 如 果 这 
个 过 程 永 远 持续 下 去 ， 则 称 该 类 问题 为 无 穷 时 域 (infinite horizon) fA] BM; MIR Agent 最 终 
会 停止 推理 ， 但 不 知道 何 时 会 停止 推理 ， 则 称 该 类 问题 为 无 限定 时 域 (indefinite horizon) 
问题 。 为 了 给 这 种 情况 建 模 ， 我 们 扩展 马尔 可 夫 链 以 处 理 Agent 的 行动 。 在 每 一 个 阶段 ， 
Agent 决定 执行 哪个 问题 ; 结果 状态 取决 于 前 一 个 状态 和 执行 的 动作 。 

对 于 持续 的 过 程 ， 你 不 会 只 想 考虑 最 后 的 效用 ， 因 为 Agent 的 推理 有 可 能 永远 也 不 会 
结束 。 相 反 ，Agent 会 收 到 一 系列 的 回报 (reward) 。 这 些 回报 涵盖 了 执行 动作 的 成 本 ， 及 
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可 能 接受 的 奖励 或 惩罚 。 负 回报 被 称 为 惩罚 (punishment) 。 无 限定 时 域 问题 可 以 使 用 一 个 
停止 态 来 建 模 。 停 止 态 (stopping state) BY MR BLAS (absorbing state) 是 所 有 的 动作 都 不 会 产 
生 任 何 影 响 的 状态 ， 也 就 是 说 ， 当 Agent 进入 该 状态 后 ， 所 有 的 动作 都 会 直接 返回 ， 并 保 
持 状态 不 变 ， 且 回报 为 零 。 目 标的 成 绩 可 建 模 成 Agent 进入 停止 态 时 所 获得 的 回报 。 
我 们 只 考虑 平稳 的 (stationary) 模 型 ， 即 其 中 的 状态 转换 和 回报 大 小 都 不 依赖 于 时 间 。 
一 个 马尔 可 夫 决 策 过 程 (Markov decision process，MDP) 的 组 成 如 下 : 


。 S， 各 种 情景 中 的 状态 集合 。 
° A; 动作 集合 。 


399 


。 P; SXSXA>[0, 1], 用 来 描述 动态 性 ， 并 记 为 PCs |s. OBA 


Vs€ SVa2EA J Pis |s =1 


特别 地 ，P(s'|s，a) 定 义 了 Agent 在 状态 下 执行 动作 a 时 转向 状态 /的 概率 。 
© R: SXAXS>R, KRG, a, ;人 ) 定 义 了 执行 动作 4 AARS s HERA s'ii 


的 期 望 回报 。 


动态 性 和 回报 都 可 以 是 随机 的 ， 即 转移 的 状态 和 回报 可 以 有 一 定 的 随机 性 ， 这 通过 在 
转移 状态 上 设置 概率 分 配 函 数 和 通过 R 确定 期 望 回 报 来 实现 。 当 转移 状态 和 回报 依赖 于 尚 


未 在 MDP 模型 中 的 随机 变量 时 ， 它 们 也 是 随机 的 。 


9-12 的 决策 网 络 描述 了 一 个 马尔 可 夫 决 策 过 程 的 部 分 内 容 。 





图 9-12 表示 部 分 MDP 的 决策 网 络 


[B 9-253 网 格 化 的 世界 是 机 器 人 的 一 个 理想 环境 。 任 何 时 刻 ， 机 器 人 在 某 个 位 置 并 
能 移 向 近邻 的 位 置 ， 并 为 此 获得 回报 或 者 接受 惩罚 。 假 设 机 器 人 的 动作 是 随机 的 ， 也 就 是 
说 结果 状态 服从 一 个 概率 分 布 ， 且 此 概率 依赖 于 执行 的 动作 和 所 处 的 状态 。 


9-13 是 一 个 10X 10 的 网 格 世 界 ， 在 这 个 世 
界 中 机 器 人 可 以 执行 4 个 动作 : LE. AP. az. 
向 右 。 如 果 机 器 人 执行 了 其 中 一 个 动作 ， 则 该 动作 
有 0.7 的 概率 朝向 想 要 去 的 方向 ， 分 别 有 0. 1 的 概 
率 朝向 另外 三 个 方向 。 如 果 磁 到 外 壁 ( 即 计算 出 的 位 
置 在 给 定 的 网 格 之 外 ) ， 则 需要 接受 1 个 单位 的 惩罚 
( 即 回报 为 一 1) 且 并 不 真正 移动 位 置 。 共 有 4 个 奖励 
状态 (除去 墙壁 ) : 一 个 奖励 为 十 10 的 位 置 ( 在 位 置 
(9，8) 处 ， 第 8 行 第 9 列 )， 一 个 奖励 为 士 3 的 位 置 
(在 位 置 C8，3) 处 )， 一 个 奖励 为 一 5 的 位 置 (在 位 置 
(4，5) 处 ) ， 及 一 个 奖励 为 一 10 的 位 置 ( 在 位 置 (4， 
8) 处 )。 在 其 中 的 每 一 个 状态 ，Agent 在 该 状态 执行 





图 9-13 例 9-25 使 用 的 网 格 世 界 
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了 动作 后 才 获 得 奖励 ， 而 不 是 进入 该 状态 时 就 获得 奖励 。 当 Agent 到 达 状 态 (9，8) 时 ， 不 
管 它 下 一 步 做 什么 ， 它 都 会 在 网 格 世 界 的 四 个 角 中 任 选 一 个 并 移 过 去 。 
请 注意 ， 在 这 个 例子 中 ， 回 报 是 初始 状态 和 最 终 状 态 的 函数 。 判 断 Agent 是 否 撞 到 了 
墙 上 的 方法 是 检查 Agent 是 否 发 生 了 实际 的 移动 。 仅 知道 Agent 的 初始 状态 和 动作 ， 或 者 
仅 知道 最 终 状 态 和 动作 ， 都 不 足以 提供 推断 回报 所 需 的 信息 。 < 
对 于 9. 3. 1 节 的 决策 网 络 , 设计 者 不 得 不 考虑 在 Agent 作 决 策 时 能 够 利用 哪些 信息 。 
这 里 有 两 种 常见 的 变化 : 
s 在 一 个 完全 可 观察 马尔 可 夫 决 策 过 程 (fully observable Markov decision process) 
中 ，Agent 在 决策 要 做 什么 动作 时 开始 观察 当前 的 状态 。 
。 一 个 部 分 可 观察 马尔 可 夫 决 策 过 程 (partially observable Markov decision process) 
是 一 个 MDP 和 一 个 隐 马 尔 可 夫 模 型 的 组 合 。 在 每 一 个 时 间 点 ，Agent 开始 根据 状 
态 做 一 些 观 察 。Agent 在 作 决 策 时 可 以 访问 观察 和 之 前 动作 的 历史 情况 。 它 不 能 
直接 观察 当前 的 状态 。 
为 决定 要 做 什么 ，Agent 要 比较 不 同 的 回报 序列 。 完 成 这 个 比较 的 最 常见 方法 是 将 回 
报 序列 转 换 成 称 为 值 (value) 或 累积 回报 (cumulative reward) 的 数值 。 为 此 目的 ，Agent 将 
直接 回报 与 将 来 的 其 他 回报 组 合 在 一 起 。 假 设 Agent 接收 到 的 回报 序列 如 下 : 


则 有 如 下 三 种 常见 的 将 回报 组 合成 值 Y 的 方法 : 


总 回报 (total reward): V = 2 。 此 时 ， 值 为 所 有 回报 之 和 。 如 果 你 能 保证 回报 之 


和 是 有 限 的 ， 则 这 种 办 法 就 是 适用 的 但 如 果 回 报 之 和 是 无 限 的 ， 则 无 法 比较 哪个 回报 序 
列 更 好 。 例 如 ， 一 个 回报 均 为 1 美元 的 无 限 序列 之 和 与 回报 均 为 100 美元 的 序列 之 和 相等 
(两 者 均 为 无 穷 大 ) 。 此 时 ， 回 报 之 和 变 为 有 限 的 情况 是 存在 一 个 终止 条 件 ; 当 Agent 总 是 
能 以 一 个 大 于 零 的 概率 进入 停止 状态 时 ， 回 报 之 和 就 是 有 限 的 了 。 

平均 回报 (average reward); V = lim(r; ++-+7,)/n. Eit, Agent 的 值 评价 是 其 各 


时 刻 所 得 回报 的 平均 值 。 只 要 回报 是 有 限 的 ， 则 该 评价 就 是 有 限 的 。 不 过 ， 如 果 总 回报 是 
有 限 的 ， 则 平均 回报 就 变 成 了 0， 从 而 Agent 就 无 法 根据 此 数值 来 确定 该 执行 哪个 动作 ， 
因为 无 论 执行 哪个 动作 ， 平 均 回报 都 是 0。 在 这 个 标准 下 ， 唯 一 重要 的 事情 是 Agent 会 在 
哪里 停止 。 任 何 有 限 的 不 佳 动作 序列 都 不 会 影响 最 终 的 极限 数值 。 例 如 ， 在 获得 100 万 美 
元 的 回报 之 后 每 次 仅 获 得 1 美元 的 回报 ， 与 获得 0 美元 的 回报 之 后 每 次 都 获得 1 美元 的 回 
报 ， 其 平均 回报 是 相等 的 (它们 的 平均 回报 的 极限 均 为 1 美元 )。 

折扣 回报 (discounted reward) : V = ri Hyra Hrs tee ty rete o Hp y Ea 
AF (discount factor) ，0 委 7 过 1。 在 这 个 标准 下 ， eR MELEE a La 
报 。 如 果 y 等 于 1， 则 该 标准 与 总 回报 等 价 。 当 Y= 二 0 时，Agent 忽略 将 来 的 回报 。 无 论 总 
回报 是 否 是 有 限 的 ，0 委 7 到 1 就 保证 了 该 标准 总 是 有 限 的 。 

折扣 回报 可 写 为 : 


v= Py T 
i=l 
二 站 十 +n tey nee 
= f; + y(n 十 Ylrs + +)) 
假设 Vi 是 从 时 刻 & 开始 累积 回报 ， 则 有 : 
Vi = ri FOr + Yre $d 
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= ra HYV ea 

为 理解 V; 的 性 质 ， 假 设 S=ltyty tr tees WA S=1+yS. RRSBS= 
1/(1 一 7)。 因 此 ， 在 折扣 回报 的 标准 下 ， 将 来 的 全 部 值 至 多 是 1/(1 一 7) 与 最 大 单 次 回报 的 
乘积 至 少 是 1/( 一 7) 与 最 小 单 次 回报 的 乘积 。 因 此 ， 相 比 立即 得 到 的 回报 ， 从 现在 开始 
的 无 限时 间 内 的 值 是 有 限 的 。 这 与 平均 回报 不 同 。 在 平均 回报 的 标准 下 ， 立 即 回报 被 无 限 
时 间 的 累积 回报 所 支配 。 

在 经 济 学 中 ，7 与 利率 相关 : 现在 得 到 1 美元 等 价 于 一 年 后 得 到 1 十 i 美元 ， 其 中 i 为 
利率 。 你 可 以 把 折扣 率 看 做 Agent 的 生存 概率 ; y 可 以 看 成 是 Agent 继续 行动 下 去 的 概 
率 。 本 书后 面部 分 考虑 的 是 折扣 回报 。 

一 个 平稳 策略 (stationary policy) 是 一 个 函数 x:S 习 A， 即 该 函数 给 每 一 个 状态 指定 一 
个 动作 。 给 定 一 个 回报 标准 后 ， 一 个 策略 可 为 每 一 个 状态 计算 出 期 望 值 。 设 V" (Cs) 是 在 状 
态 s 下 由 x 给 出 的 期 望 值 。 这 反映 了 Agent 在 该 状态 下 按照 策略 x 行动 时 获得 的 期 望 值 。 
如 果 不 存在 一 个 策略 zt 及 状态 s MEV (SDV (Gs), WERK x 为 最 优 策略 。 也 就 是 说 ， 
对 于 每 一 个 状态 ， 该 策略 比 其 他 策略 具有 更 高 或 相等 的 期 望 值 。 

对 于 无 穷 时 域 问 题 ， 一 个 平稳 的 MDP 总 有 一 个 最 优 的 平稳 策略 。 然 而 ， 对 于 有 限 阶 
段 问题 却 不 是 如 此 一 一 在 该 问题 中 ， 一 个 非 平稳 策略 可 能 要 好 于 所 有 的 平稳 策略 。 例 如 ， 
如 果 Agent 不 得 不 在 时 刻 寺 时 停止 ， 在 某 个 状态 下 做 出 最 后 一 个 决定 ， 则 Agent 可 能 执行 
能 够 获得 最 大 的 立即 回报 的 动作 而 不 再 考虑 将 来 的 动作 ， 但 在 之 前 处 于 同一 状态 时 的 决策 
中 ， 它 可 能 会 决定 执行 一 个 获得 较 低 立即 回报 但 有 望 随后 获得 较 大 回报 的 动作 。 


9.5.1 策略 值 


对 于 折扣 率 为 了 的 折扣 回报 ， 策 略 x 的 期 望 值 由 两 个 相互 关联 的 函数 V" 和 Q" 定义 。 

HQ Cs, D EERS s 下 根据 策略 x 执行 动作 a MARRE. MBF. VORE 
状态 ;下 遵循 策略 x SA. 

QF V= 彼此 可 以 递归 定义 。 如 果 Agent 处 于 状态 s， 执 行动 作 4 并 到 达 状 态 s ， 它 就 
得 到 立即 回报 R(s，a，5s') 及 将 来 的 折扣 回报 yV GO. Æ Agent 做 规划 时 ， 它 并 不 知道 确 
切 的 结果 状态 ， 因 此 它 使 用 期 望 值 ， 即 所 有 结果 状态 的 值 的 平均 值 : 

Q*(s,a) = 2 PG | ssa) (RCssass) + V"6')) (9. 2) 


其 中 Vr"(s) 可 通过 执行 策略 确定 的 动作 并 按照 该 策略 执行 得 到 ; 
V" Cs) = Q*(s,x6s)) 


9.5.2 最 优 策 略 值 


设 Q' (Cs，a) 是 Agent 在 状态 ;下 执行 动作 a 并 遵循 最 优 策略 的 期 望 值 。 设 V" (5) 是 
从 状态 * 开始 遵循 最 优 策 略 的 期 望 值 。 
Q" 的 定义 类 似 于 & 的 定义 : 


Q (s,a) = DI PCs! | ssa) (Rays) + V" (s')) (9. 3) 
其 中 V" (s) 是 在 每 个 状态 中 执行 使 得 值 最 大 的 动作 所 得 的 值 : 
V* (s) = maxQ” (s,a) 


最 优 策略 x 是 使 得 Agent 在 每 一 个 状态 下 均 能 获得 最 大 值 的 策略 : 
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z’ Cs) = arg maxQ* (sya) 


请 注意 ，arg max,Q*(s, ABR s 的 一 个 函数 ， 其 值 为 使 Q"(s， 忆 最 大 的 动作 a。 
9.5.3 ÉR 


值 迭代 是 一 个 计算 最 优 MDP 策略 及 其 值 的 方法 。 

值 迭 代 从 一 个 “终点 ”开始 ， 然 后 不 断 向 后 计算 ， 逐 步 精 化 Q" RV" 的 估计 值 。 算 法 没 
有 真正 的 终点 ， 因 此 它 需 要 有 一 个 人 为 指定 的 终点 。 设 Vi 为 阶段 & 的 值 函数 ，Qs 为 阶段 
k 的 Q 函数 。 它 们 可 以 递归 定义 。 值 近代 从 一 个 任意 的 函数 V 开始 ， 然 后 使 用 下 面 的 方 
程式 从 上 阶段 的 函数 得 到 十 1 阶段 的 函数 : 

Cede DI PGs! |ssa) Rlssass’) + YVC) k>0 


Vils) = maxQ,(s,a) k>O 


计算 过 程 中 可 选择 存储 VLS] 数 组 ， 也 可 选择 存储 QLS，A] 数 组 。 存 储 V 数组 需要 的 
空间 少 ,但 确定 一 个 最 优 动作 比较 困难 ， 并 且 需 要 更 多 一 次 迭代 来 确定 哪个 动作 的 价值 
最 大 。 
图 9-14 显示 了 存储 V 数组 的 值 迭代 算法 。 无论 初 始 值 函数 V。 的 取 值 为 何 ， 该 过 程 都 
是 收敛 的 。 接 近 V" 的 初始 值 函数 比 远离 V 的 初始 值 函数 的 收敛 速度 快 。 许 多 MDP 的 提 
取 技 术 的 基础 是 使 用 一 些 启发 式 方法 来 近似 V" 并 将 该 近似 值 作为 值 送 代 的 初始 种 子 。 


1; procedure Value_Iteration(S, A, P, R, 8) 
Inputs 
S: 所 有 状态 的 集合 
A: 所 有 动作 的 集合 
P: 状态 转换 函数 PO |s a) 
R: 回报 函数 R(s,，a，s') 
9: 一 个 阐 值 ，0 汪 0 
Output 
xfLS]: 近似 最 优 策略 
VS]: 值 函数 
Local 
实数 取 值 的 数组 WiLS]， 一 个 值 函数 序列 
动作 数组 元 S] 
为 ViLS] 任 意 赋值 
k;=0 
repeat 
k :=k+1 
for each 4RAS s do 
V.[s]=max . >) PG' | ssa) (RCssays') +Ws T) 


until Ys | Va [s] -Va [s] | <@ 
for each 状态 s do 
als l=arg max, 2 PCs’ | s,a)(R(s,a,s') HWA D 


return x, V, 





9-14 MDP 的 值 迭 代 算法 ,存储 数组 V 


【 例 9-26】 考虑 例 9-25 中 回报 为 十 10 的 格子 及 其 周围 的 格子 ;折扣 为 7 二 0.9。 对 于 
所 有 的 状态 s， 假 设 算法 的 初始 值 函 数 为 Vo[sj]=0。 
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对 于 上 述 9 个 格子 ， BRERA V V: 和 Vs 的 取 值 如 下 : 





在 第 一 次 值 迭 代 后 ， 节 点 会 得 到 直接 预期 回报 。 该 图 的 中 间 节 点 是 回报 为 十 10 的 状 
态 。 右 边 节 点 的 值 为 一 0.1， 从 而 其 最 优 动作 为 向 上 、 向 左 和 向 下 ; 这 些 动作 都 有 0. 1 的 
概率 撞 到 墙 上 去 ， 此 时 的 回报 为 一 1。 

中 间 的 网 格 表示 了 V;， 即 第 二 步 值 迭代 后 的 函数 值 。 考 虑 十 10 回报 状态 左边 直接 
相 邻 的 节点 : 其 最 优 值 为 向 右 ; CA 0.7 的 概率 在 下 一 个 状态 得 到 10 的 回报 ， 因 此 其 
价值 为 9(10 乘 折 扣 率 0.9); 其 他 可 能 状态 的 期 望 回报 为 0。 因此 ， 上 述 状 态 的 值 为 
0.7X9=6.3. . 

考虑 第 二 步 值 迭代 后 十 10 回报 状态 的 右边 直接 相 邻 的 节点 。Agent 在 此 状态 时 的 最 优 
动作 是 向 左 ， 该 状态 的 值 为 : 


概率 回报 未 来 价值 

0.7XT( 0 w IXI Agent HA 
+ 0. 1X ( 0 + 090.1 Agent 向 上 
有 nt 
十 On UX 0 + 0.9 —0.1) Agent 向 下 


最 后 得 到 的 值 为 6. 173. 

请 注意 十 10 回报 状态 的 值 是 如 何 小 于 10 的 。 这 是 因为 Agent 冲 向 了 某 个 角落 ， 而 这 
些 角 落 在 此 时 是 不 佳 的 状态 。 

再 做 一 次 值 迁 代 ( 见 上 图 的 右边 )， 十 10 回报 状态 的 影响 更 进一步 。 特 别 的 ， 角 落 状 
态 得 到 的 值 表 示 了 3 次 迭代 后 的 回报 。 

本 书 网 站 上 有 一 个 applet 小 程序 演示 了 本 例 值 迭代 的 详细 过 程 。 < 

图 9-14 中 的 值 迁 代 算 法 为 每 一 个 阶段 设置 了 一 个 数组 ， 但 实际 上 仅 需 要 保存 当前 数 
组 和 前 一 个 数组 。 算 法 可 轮换 地 根据 一 个 数组 的 值 更 新 另 一 个 数组 的 值 。 

该 算法 的 一 个 常见 改进 是 异步 值 选 代 (asynchronous value iteration)。 与 计算 完 所 有 状态 
然后 再 创建 一 个 新 的 值 函 数 的 敌 法 不 同 ， 异 步 值 迭 代 在 计算 了 一 个 状态 后 立即 进行 更 新 ( 任 
意 顺 序 都 可 以 )， 并 将 这 些 值 保 存在 一 个 数组 中 。 蜡 步 值 和 迭代 可 以 保存 QLs， aj] 数 组 ， 也 可 以 
保存 V[Ls] 数 组 。 图 9-15 给 出 了 异步 值 迭 代 算法 过 程 ， 共 中 保存 了 Q 数 组 。 该 算法 比值 迭代 
算法 的 收敛 速度 更 快 、 占 用 空间 更 少 ， 是 一 些 强 化 学 习 算 法 的 基础 。 如 果 Agent 必须 要 保证 
一 定 的 误差 范围 ， 则 算法 的 终止 条 件 就 很 难 确定 ， 除 非 仔 细 考 虑 动作 和 状态 的 选择 。 通 常情 
况 下 ， 这 个 过 程 无 限期 地 运行 ， 同 时 做 好 回答 关于 最 优 动作 的 最 佳 估计 的 询问 。 

异步 值 送 代 也 可 以 通过 仅 存 储 V[s] 数 组 来 实现 。 此 时， 算法 选择 一 个 状态 s 并 通过 下 
式 更 新 : 

Vis] = max >} Ps | ssa) (RGs,ass8') + VLEs‘) 


尽管 这 个 算法 存储 了 较 少 的 信息 ， 但 要 抽取 出 策略 却 更 加 困难 。 它 需要 一 个 额外 的 备 
份 ， 以 确定 哪个 动作 a 产生 的 价值 是 最 大 的 。 这 可 用 下 式 实现 : 
zls] = arg max >) P(s' | sya) (R(ssa.s') + WLS’ ]) 
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1: procedure Asynchronous_Value_Iteration(S, A, P, R) 
Inputs 
S: 所 有 状态 的 集合 
A: 所 有 动作 的 集合 
P: 状态 转换 函数 PG |s a) 
R: RMA Rs, a, s) 
Output 
nls]: 近似 最 优 策略 
QLS, A]: {im %& 
Local 
实数 数组 QS, A] 
动作 数组 LS] 
为 QLS，4] 赋 任意 的 初始 值 


Qs.a] = bay | sya) (R(Gs,a,s') + ymax, Q[s'.a"]) 
until 结束 条 件 
for each 状态 s do 

xls]=arg max, Q[s, a] 
return x, Q 





9-15 MDP 的 异步 值 迭 代 算法 


【 例 9-27〗 在 例 9-26 中 ， 从 十 10 回报 状态 向 上 一 步 再 向 左 一 步 的 状态 的 值 是 在 进行 
了 三 次 值 迭 代 之 后 才 更 新 的 。 在 上 述 三 次 值 迭 代 中 ， 所 有 的 状态 都 进行 了 计算 。 

在 异步 值 迭 代 中 ， 可 以 首先 选择 十 10 回报 状态 。 然 后 可 选择 向 左 一 步 ， 并 可 计算 出 
其 值 为 0.7X0.9X10==6. 3。 然 后 可 选择 该 节点 上 面 的 那个 节点 ， 并 可 计算 其 值 为 0.7X 
0. 9X6. 3=3. 969。 请 注意 ， 在 考虑 了 3 个 状态 (而 不 是 300 个 状态 ， 就 像 值 迁 代 中 那样 ) 
后 得 到 的 这 个 值 就 反映 了 它 接近 于 一 个 十 10 回报 状态 。 a 


9.5.4 策略 和 迭代 


RPI HK (policy iteration) 从 一 个 策略 开始 ， 然 后 迭代 改进 它 。 算 法 从 任意 一 个 策略 
xo( 越 接近 最 优 策略 越 好 ) 开 始 ， 然 后 执行 下 面 的 步骤 ， 其 中 i 从 0 开始 。 
。 策略 评估 : MEVS). V 由 一 组 共 |S | 个 线性 方程 定义 ， 其 中 有 | S| SAMA 
量 。 这 些 未 知 变量 就 是 V%(S) 的 取 值 。 每 一 个 状态 对 应 一 个 方程 。 这 个 线性 方程 
组 可 用 解 线性 方程 组 的 方法 (如 高 斯 消去 法 ) 求 解 ， 或 者 可 以 用 迭代 的 方式 求解 。 
。 策略 改进 : 选择 ma (s)=arg maxQ™ (s, a), Hp Q@ 值 可 使 用 式 (9.2) 根 据 V 的 
值 计 算出 来 。 为 检测 算法 何 时 已 经 收敛 ， 应 该 仅 在 某 些 状 态 下 的 新 动作 改进 了 期 
望 值 时 才 改 变 策略 ， 也 就 是 说 ， 如 果 x (3) 是 一 个 使 Qi(s，a) 最 大 的 动作 ， 则 应 
该 将 rin () RAS). 
*。 当 策略 不 再 变动 时 停止 ， 即 m 二 x 时 停止 ; 否则 ， i 增 1 并 重复 本 过 程 。 
算法 如 图 9-16 所 示 。 请 注意 ， 该 算法 仅 保 留 了 最 新 的 策略 ， 并 知道 它 是 否 已 被 改变 。 
该 算法 总 会 停止 ， 且 通常 不 会 迭代 很 多 步 。 不 幸 的 是 ， 解 线性 方程 组 通常 很 耗 时 。 
一 个 策略 迭代 算法 的 改进 ， 称 为 改进 的 策略 迭代 (modified policy iteration)， 是 利用 
算法 并 不 要 求 Agent 评估 策略 这 个 特点 而 得 到 的 ; 算法 可 以 备份 多 步行 动 (使 用 式 (9. 2))， 
然后 再 做 改进 。 
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l: procedure Policy Iteration(S., A, P, R) 
Inputs 
S: 所 有 状态 集合 
A: 所 有 动作 集合 
了 :状态 转移 函数 P(s |s, a) 
R: 回报 函数 Rs, a, 59 


动作 数组 xLS] 
布尔 变量 noChange 


实数 数组 VES] 
设置 任意 一 个 策略 元 
repeat 

noChange+-true 


求解 V[s] = DPE | semis) (RGsyass') + Ys") 
es 


for each s€ S do 
设 QBest=V[s] 
for each aC A do 
Let Qa = SP’ | s,a)(R(s,a,s') + YVL D 
es 


if Qsa>QBest then 
n{s]+a 
QBest~Qsa 
noChange=- false 
until noChange 
return x 





9-16 MDP 的 策略 迭代 算法 


对 于 过 于 庞大 而 难以 直接 用 MDP 表示 的 系统 ， 策 略 和 迭代 所 蕴含 的 思想 是 可 供 借鉴 的 。 
假设 一 个 控制 器 有 一 些 参数 ， 这 些 参数 的 取 值 能 够 变化 。 对 一 些 环 境 ;中 的 参数 a 的 累积 
折扣 回报 的 导数 的 估计 (对 应 于 Q(a，s) 的 导数 )， 能 够 用 来 改进 参数 。 这 样 迭 代 改 进 的 控 
制 器 能 够 陷入 一 个 非 全 局 最 大 的 局 部 极 大 。MDP 的 策略 从 代 不 会 停止 在 非 最 优 的 局 部 极 
大 ， 因 为 在 那 种 状态 下 ， 可 以 改进 一 个 状态 下 的 动作 而 不 影响 其 他 的 状态 ， 然 而 ， 对 参数 
的 更 新 能 够 一 下 子 影响 许多 状态 。 


9.5.5 动态 决策 网 络 


MDP 是 基于 状态 的 表示 。 在 本 节 ， 我 们 考虑 一 个 基于 特征 的 MDP 扩展 ， 它 是 决策 理 
论 规划 (decision theoretic planning) 的 基础 。 

动态 决策 网 络 (dynamic decision network，DDN) 的 表示 有 多 种 形式 : 

。 MDP 的 因子 化 表示 : 其 中 的 状态 描述 为 特征 ; 

。 决策 网 络 的 扩展 : 允许 重复 进行 中 的 动作 和 状态 的 变化 ; 

。 动态 信念 网 络 的 扩展 : 包含 了 动作 和 回报 ; 

。 动作 的 基于 特征 的 表示 的 扩展 : 允许 动作 的 影响 具有 不 确定 性 。 

一 个 完全 可 观察 的 动态 决策 网 络 的 组 成 如 下 : 

。 一 个 状态 特征 的 集合 ， 每 一 个 特征 有 一 个 值 域 ; 

。 由 一 个 可 能 动作 的 集合 构成 的 决策 节点 A， 决 策 的 值 域 即 为 动作 集合 ; 
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。 一 个 有 一 个 动作 节点 A、 对 应 于 每 一 个 特征 下 的 节点 下 。 和 Fi (分 别 表 示 时 刻 0 和 
时 刻 1 时 的 特征 ) ， 及 一 个 条 件 概率 PC: | parentsCF,)) 的 两 阶段 信念 网 络 ， 其 中 
Fi 的 双亲 节点 可 以 包括 节点 A 和 时 刻 OL 时 刻 1 的 特征 ， 只 要 所 得 的 网 络 是 无 
环 的 ; 
。 一 个 回报 函数 ， 它 是 动作 和 时 刻 0 与 时 刻 1 的 任意 特征 的 函数 。 
709 正如 动态 信念 网 络 中 的 那样 ， 时 刻 1 的 特征 能 被 复制 作为 后 续 时 刻 的 特征 。 

【 例 9-28】 考虑 将 例 8-1 的 一 个 随机 版 本 表示 为 一 个 动态 决策 网 络 。 我 们 使 用 与 例 8-1 
中 相同 的 特征 。 

RLoc, 的 双亲 为 RLoc。 和 A. RHC, 的 双亲 为 
RHC,、A 和 RLoco; 机 器 人 是 否 有 咖啡 取决 于 它 之 
前 是 否 有 咖啡 、 它 做 过 什么 动作 以 及 它 的 位 置 。 

SWC, 的 双亲 包括 SWC。、RHC。、A 和 RLocv。 
你 不 会 认为 RHC, 和 SWC, 是 独立 的 ， 因 为 它们 都 依 
赖 于 咖啡 是 否 被 成 功 送 到 。 这 可 以 通过 将 其 中 一 个 设 
为 另 一 个 的 双亲 节点 来 表示 。 在 时 刻 1， 两 阶段 信念 
网 络 的 状态 变量 依赖 于 选择 的 动作 及 图 9-17 中 的 其 
他 状态 变量 。 该 图 也 表示 了 回报 是 动作 的 函数 ， 该 动 
作 可 以 是 Sam 不 再 想 要 咖 罪 ， 也 可 以 是 等 竺 取信。 

另外 一 个 建 模 RHC, 和 SWC, 间 的 依赖 关系 的 方 
法 是 引入 一 个 新 的 表示 咖啡 是 否 在 时 刻 1 成 功 送 到 的 
变量 CSD. KERE RHC 和 SWCi 的 双亲 。Sam BE AF 回报 状态 
是 否 想 要 咖啡 是 Sam 之 前 是 否 想 要 咖啡 及 咖啡 是 否 成 图 9-17 表示 了 两 阶段 信念 网 络 和 
功 送 到 的 函数 。 机 器 人 是 否 有 咖啡 取决 于 其 动作 和 位 同 报 结构 的 动态 决策 网 络 
置 ， 以 此 来 建 模 机 器 人 端 起 咖啡 这 件 事 。 相 似 地 ，MW, 与 RHM, 间 的 依赖 关系 可 通过 引 
入 一 个 表示 是 否 成 功 拿 起 信件 的 变量 MPU, 来 建 模 。 其 结果 对 应 为 图 9-18 中 的 有 2 层 的 

a0) DDN, 但 略 去 了 回报 。 4 





cS Yr gS 
Wes 





State, Action, State, Action, State, 
图 9-18 有 2 层 结 构 的 带 有 中 间 变 量 的 动态 决策 网 络 ， 略 去 了 回报 节点 


作为 此 类 决策 网 络 的 一 部 分 ,我 们 也 应 该 为 关于 动作 和 回报 的 可 用 信息 建 模 。 在 一 个 
完全 可 观察 动态 决策 网 络 中 ， 动 作 的 双亲 都 是 之 前 的 状态 变量 。 因 为 这 一 点 可 通过 推理 得 
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到 ， 因 此 相应 的 边 通 常 并 不 绘 出 。 如 果 回 报 仅 出 现在 最 后 ， 就 能 直接 应 用 决策 网 络 的 变量 
消除 法 (如 图 9-11 所 示 )。 请 注意 ， 对 此 工作 ， 我 们 不 要 求 无 遗忘 条 件 ; 有 了 完全 可 观察 
条 件 就 足够 了 。 如 果 在 每 一 步 都 要 收集 回报 ,必须 对 算法 进行 扩充 以 适应 回报 的 累加 。 参 
考 习 题 9.12, 


9.5.6 部 分 可 观察 决策 过 程 


部 分 可 观察 马尔 可 夫 决策 过 程 (POMDP) 是 MDP 和 隐 马 尔 可 夫 模型 的 组 合 。 其 中 不 
再 假设 状态 是 可 观察 的 ， 而 是 假设 Agent 在 必须 行动 之 前 仅 可 得 到 部 分 和 /或 有 噪声 的 


观察 。 


POMDP 的 有 限 部 分 可 用 决策 图 表示 ， 如 
图 9-19 所 示 。 
计算 POMDP 的 最 优 策略 的 方法 主要 有 三 种 : 


9.6 


个 POMDP 由 以 下 部 分 组 成 : 

S: 环境 中 的 状态 集合 。 

A: 动作 集合 。 

O: 可 能 得 到 的 观察 的 集合 。 

P(So): 初始 状态 的 概率 分 布 。 

P(S'|S，A): 指定 了 动态 性 ， 即 在 状态 S 下 执行 动作 A 从 而 转换 到 S 的 概率 。 
R(S, A, S'): 在 状态 S 下 执行 动作 A 并 转换 到 状态 S 的 期 望 回报 。 
P(O|S); 在 状态 S 下 能 够 观察 到 O 的 概率 。 


使 用 决策 网 络 的 变量 消除 法 来 求解 动态 
决策 网 络 ( 如 图 9-11， 需 要 扩展 以 处 理 折 
扣 回 报 )。 创 建 的 策略 是 Agent 历史 的 一 
个 函数 。 使 用 此 方法 的 问题 是 Agent 的 历 
史 是 无 界 的 ， 且 可 能 的 历史 数量 在 规划 
过 程 中 是 以 指数 增长 的 。 

策略 是 信念 状态 的 一 个 函数 ， 即 是 各 种 状态 上 的 概率 分 布 。 维 护 信 和 念 状态 是 一 个 
滤波 问题 。 该 方法 的 问题 是 : 对 于 个 状态 ， 信 和 念 状态 集合 是 一 个 (n 一 1) 维 的 实 
数 空间 。 然 而 ， 因 为 一 系列 动作 的 值 仅 依赖 于 状态 ， 所 以 期 望 值 是 状态 值 的 一 个 
线性 函数 。 因 为 规划 以 观察 为 条 件 ， 且 对 任意 信念 状态 我 们 仅 考虑 其 最 优 动作 ， 
所 以 任意 有 限 前 瞻 的 最 优 策 略 是 分 段 线 性 和 凸 的 。 

搜索 控制 器 的 空间 找到 最 好 的 控制 器 。 由 此 ，Agent 根据 其 信念 状态 和 观察 搜索 
要 记忆 哪些 、 要 怎么 做 。 请 注意 ， 前 两 个 方法 是 此 方法 的 两 个 实例 : Agent 记忆 
了 其 所 有 的 历史 ， 或 Agen 有 一 个 信念 状态 且 该 状态 是 所 有 可 能 状态 的 概率 分 布 。 
通常 ，Agent 希望 记忆 其 一 部 分 的 历史 ， 但 对 另外 一 些 特征 有 概率 选择 的 能 力 。 
因为 对 要 记忆 哪些 没有 加 以 限制 ， 所 以 搜索 空间 是 巨大 的 。 


本 章 小 结 


图 9-19 POMDP 的 动态 决策 网 络 表 示 


。 效用 是 衡量 偏好 的 指标 ， 而 偏好 包含 有 不 确定 性 。 
。 决策 网 络 可 以 使 用 特征 来 表示 一 个 有 限 阶 段 的 部 分 可 观察 顺序 决策 问题 。 
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* MDP 可 以 使 用 状态 来 表示 无 穷 阶段 或 无 限定 阶段 顺序 决策 问题 。 
* 完全 可 观察 MDP 能 够 使 用 值 狗 代 或 策略 迭代 算法 求解 。 
*。 动态 决策 网 络 可 使 用 特征 来 表示 MDP. 


9.7 参考 文献 及 进一步 阅读 


这 里 介绍 的 效用 理论 由 Neumann 和 Morgenstern[ 1953 | 提出 ， 并 由 Savage[ 1972 做 了 改进 。Keeney 
和 RaiffaL1976] 讨 论 了 效用 理论 ， 并 集中 于 多 属性 (基于 特征 ) 效 用 函数 的 讨论 上 。 对 于 效用 的 图 形 化 模 
型 ， 请 参考 Bacchus 和 Grove[ 1995] 的 工作 ， 及 Boutilier, Brafman, Domshlak, Hoos 和 Poole[2004] 的 
工作 。 近 期 ，Walsh[2007] 对 相关 工作 做 了 一 个 总 结 。 

决策 网 络 或 影响 图 由 Howard 和 Matheson[1984] 担 出。 使 用 动态 规划 求解 影响 图 的 方法 可 参考 
Shachter 和 Peot[1992] 的 工作 。Matheson[1990] 讨 论 了 信息 和 控制 的 价值 。 

MDP 由 Beliman[ 1957] 提 出 ，Puterman[ 1994] 和 Bertsekas[ 1995] 也 对 此 做 了 讨论 。Boutilier、Dean 
和 Hanks[L1999] 总 结 了 将 MDP 逐步 升华 为 决策 理论 规划 的 过 程 。 


9.8 习题 


9.1 学 生 必须 对 每 门 课 的 学 习 程 度 作出 决策 。 这 个 问题 的 目的 是 研究 如 何 使 用 决策 网 络 ， 以 帮助 他 们 做 
出 这 样 的 决定 。 
假设 学 生 首先 要 决定 为 了 期 中 考试 要 学 习 多 少 。 他 们 可 以 选择 学 习 很 多 ， 学 习 一 点 儿 ， 或 者 不 
学 习 。 他 们 是 否 通过 期 中 考试 取决 于 他 们 学 习 的 多 少 及 课程 的 难度 。 作 为 一 阶 近似 ， 如 果 他 们 学 习 
努力 ， 或 课程 简单 且 学 习 了 一 点 儿 ， 则 他 们 能 够 通过 期 中 考试 。 在 得 到 期 中 考试 的 分 数 之 后 ， 他 们 
必须 决定 为 了 期 末 考 试 要 做 出 怎样 的 努力 。 与 之 前 一 样 ， 期 未 的 成 绩 与 他 们 的 努力 程度 和 课程 的 难 
易 有 关 。 他 们 的 最 后 分 数 取 决 于 他 们 通过 了 哪些 考试 。 一 般 地 ， 如 果 他 们 通过 了 两 次 考试 ， 则 分 数 
AA; 如 果 仅 通过 了 期 未 考试 ， 则 得 分 为 B; 如 果 仅 通过 期 中 考试 ， 则 得 分 为 C; 如 果 两 次 考试 都 
没有 通过 ， 则 得 分 为 F。 当 然 ， 在 这 个 评分 标准 中 存在 着 大 量 的 噪声 。 
假设 他 们 最 后 的 效用 依 融 于 他 们 学 习 的 总 付出 和 他 们 最 后 的 成 绩 。 假 设 学 习 总 付出 是 为 期 中 考 
试 而 做 出 的 学 习 付 出 加 上 为 期 未 考试 而 做 出 的 学 习 付 出 。 
Ca) 根据 以 上 描述 画 出 学 全 作 决 策 的 决策 网 络 。 
b) 每 一 个 变量 的 值 域 是 什么 ? 
O 给 出 一 个 合理 的 条 件 概率 表 。 
(d) 最 优 结果 是 什么 (此 时 的 效用 为 100)? 最 差 的 结果 是 什么 (此 时 的 效用 为 0)? 
(e) 为 一 个 只 想 通过 考试 (不 得 F) 的 学 生 设计 一 个 合适 的 效用 函数 。 该 学 生 的 最 优 策略 是 什么 ? 
H 为 一 个 想 做 到 很 好 的 学 生 设计 一 个 合适 的 效用 函数 。 该 学 生 的 最 优 策略 是 什么 ? 
9.2 考虑 下 面 的 决策 网 络 : 





这 个 图 建 模 了 一 个 关于 是 否 在 两 个 时 间作 葡 的 决策 。 
假设 P(Watched) = 二 0.4，P(Troublel | Cheail ，Watzhed) 王 0.8， 对 于 其 他 的 情况 ，Troxpzel 


为 真 的 概率 为 0。 假 设 条 件 概 率 PCTrouble2| Cheat2, Troublel, Watched) H FRA : 


9.3 


9.4 
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Cheat2 Troublel Watched | P(Trouble2=t) 


me he Fe te 
mt 





假设 效用 设置 如 下 : 








Trouble2 Cheat2 Utility 


(a) 变量 Cheat? 的 最 优 决策 函数 是 什么 ? 请 说 明 创建 了 哪些 因子 。 请 首先 手工 解答 ， 然 后 使 用 Alspace. org 
小 程序 验证 。 

(b) 最 优 策略 是 什么 ? 其 值 为 多 少 ? 列 出 创建 的 表格 。 

Co) 如果 被 观察 到 (Watched) 的 概率 增加 ， 最 优 策略 又 是 怎样 的 ? 

Cd) 如 果 作 黄 的 效用 减少 ， 最 优 策 略 又 是 怎样 的 ? 

Ce) 当 教师 对 于 以 前 的 作 尊 不 是 很 宽恕 (不 很 健忘 ) 时 ， 最 优 策略 会 是 怎样 的 ? 

很 设 在 一 个 决策 网 络 中 ， 决 策 变 量 Run 的 双亲 节点 为 Look 和 See。 假 设 你 使 用 VE( 变 量 消除 ) 法 来 

求 得 最 优 策 略 ， 且 在 消除 了 其 他 所 有 的 变量 后 ， 剩 下 如 下 的 变量 ， 





(a) 消除 变量 Run 后 得 到 的 结果 是 什么 ?〈 提 示 : 你 不 必 对 变量 Run 加 和 ， 因 为 它 是 决策 变量 。) 
(b) 变量 Run 的 最 优 决 策 函 数 是 什么 ? 

假设 在 决策 网 络 中 有 从 随机 变量 “contaminated specimen” fil“ positive test” 到 决策 变量 “discard sam- 
ple” Ai. Sally 求解 决策 网 络 并 发 现 其 中 只 有 一 个 最 优 策略 如 下 : 


contaminated specimen positive test discard sample 





在 这 种 情况 下 ， 你 认为 信息 的 值 是 怎样 的 ? 
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例 9-13 所 示 的 决策 网 络 的 结果 对 概率 的 敏感 性 如 何 ? 使 用 不 同 的 条 件 概 率 测试 这 个 例子 并 观察 其 
对 结果 的 影响 * 讨论 最 优 策略 及 其 期 望 值 的 灵敏 性 。 
在 例 9-13 中 ， 假 设 火 传感器 的 噪声 较 大 ， 它 的 误 肯定 率 有 20%: 
P(see_smoke | report N ~smoke) =0. 2 
AA IS KAR ES: 
P(see_smoke | report \ smoke) =0. 85 
此 时 ， 用 它 来 测定 烟雾 还 有 价值 吗 ? 
考虑 习题 6-8 所 示 的 信念 网 络 。 当 观察 到 警报 时 ， 需 要 做 出 是 否 关闭 反应 堆 的 决策 。 关 闭 反 应 堆 的 
代价 为 co (该 代价 独立 于 反应 堆 核 心 是 否 过 热 )， 而 不 关闭 核心 过 热 的 反应 推 会 付出 c* 的 代价 一 一 
KEHE AHL. 
Ca) 画 出 初始 系统 5 即 只 有 一 个 传感器 的 系统 ) 中 该 决策 问题 的 决策 网 络 。 
b) 对 于 必须 定义 的 新 因子 (在 定义 新 因子 时 ， 表 格 中 合适 的 地 方 应 该 使 用 c, 和 ec。)， 请 给 出 具体 的 
表格 。 假 设 效 用 是 代价 的 负 值 。 
请 解释 在 MDP 中 ， 为 什么 常常 对 未 来 的 回报 使 用 一 定 的 折扣 率 。 在 折扣 率 取 值 分 别 为 0.6 和 0.9 
的 情况 下 ，Agent 的 行动 有 什么 不 同 ? 
考虑 下 面 的 游戏 环境 : 





机 器 人 可 以 在 网 格 中 的 25 个 格子 中 的 任 一 个 格子 。4 个 角 的 圆圈 可 被 视 为 珍宝 。 当 机 器 人 到 
达 有 珍宝 的 角落 时 ， 它 就 能 够 得 到 10 的 回报 ， 之 后 珍宝 就 消失 了 。 在 角落 中 没有 珍宝 时 ， 每 一 步 
都 有 力 一 0.2 的 概率 会 出 现 珍宝 ， 有 目 珍宝 出 现在 每 个 角落 的 概率 相同 。 机 器 人 知道 自己 的 位 置 ， 也 
知道 珍宝 的 位 置 。 

魔鬼 在 有 叉 号 的 格子 里 。 在 每 一 步 ， 每 一 个 魔鬼 各 自 独 立 、 随 机 地 检查 机 大人 是否 进入 了 它 的 
格子 。 如 果 在 魔鬼 做 检查 时 ， 发 现 机 器 人 在 它 的 格子 里 ， 则 机 器 人 得 到 一 10 的 回报 ( 即 丢掉 10 
分 )。 在 中 间 的 那个 格子 ， 魔 鬼 在 每 一 步 检查 的 概率 是 ps = 0.4; 在 另外 4 个 标记 了 尺 号 的 格子 ， 
魔鬼 在 每 一 步 检查 的 概率 为 ps 一 0.2。 

假设 机 器 人 进入 一 个 状态 后 立即 得 到 回报 : 也 就 是 说 ， 如 果 机 器 人 进入 一 个 有 魔鬼 的 状态 ， 它 
就 在 进入 时 得 到 ( 负 ) 回 报 ; 如 果 机 器 人 进入 了 有 珍宝 的 状态 ， 它 就 在 进入 该 状态 时 得 到 回报 ， 即 使 
珍宝 于 同一 时 刻 在 该 位 置 出 现 也 是 如 此 。 

机 器 人 有 8 个 动作 ， 对 应 于 8 个 相 邻 的 格子 。 沿 斜 线 的 动作 是 有 噪声 的 动作 : 以 ps 二 0.6 的 概 
率 走向 选 定 的 方向 ， 以 相等 的 概率 走向 与 选 定 方向 相近 的 4 个 格子 。 坚 直方 向 和 水 平方 向 的 动作 也 
是 有 噪声 的 动作 : 以 ps = 0. 8 的 概率 走向 选 定 的 方向 ， 以 相等 的 概率 走向 相 邻 的 斜 线 方向 的 格子 。 
举例 来 说 ， 向 左上 方向 和 向 上 方向 的 动作 的 实际 执行 结果 如 下 所 示 : 
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如 果 是 一 个 擅 向 墙 的 动作 ， 则 机 器 人 得 到 一 2 的 回报 ( 即 丢掉 2 分 ) 且 不 发 生 实 际 的 移动 。 

折扣 率 为 ps 二 0.9。 

(a) 该 问题 中 一 共有 和 多少 个 状态 ? (或 有 多 少 个 状态 可 以 被 排除 了?) 它们 都 代表 什么 ? 

Ch) 最 优 策略 是 什么 ? 

Co) 假设 游戏 设计 者 希望 设计 不 同 的 游戏 实例 ， 使 得 游戏 者 觉得 该 游戏 不 存在 一 个 明显 的 最 优 策 
路 。 给 参数 po 至 ps 三 种 不 同 的 又 值 ， 并 计算 出 不 同 的 最 优 策略 。 如 果 不 存在 那么 多 不 同 的 最 
优 策 略 ， 则 有 几 个 就 列 出 几 个 ， 并 解释 为 什么 没有 那么 多 不 同 的 最 优 策略 。 


9. 10 考虑 一 个 与 前 一 个 问题 类 似 的 、 有 5X5 网 格 的 游戏 。Agent 可 以 出 现在 25 个 格子 中 的 任意 一 个 ， 


且 在 4 个 角落 中 只 有 一 个 有 珍宝 ， 或 者 都 没有 珍宝 。 
在 这 个 游戏 中 ,“ 向 上 ”的 动作 有 一 定 的 动态 性 ， 如 下 图 所 示 : 


Cum 

也 就 是 说 ，Agent 以 0. 8 的 概率 向 上 走 ， 分 别 以 0, 1 的 概率 向 左上 或 右上 方向 走 。 

如 果 没 有 珍宝 存在 ， 则 珍宝 以 0.2 的 概率 出 现 。 当 珍宝 出 现时 ， 它 会 以 相同 的 概率 出 现在 四 
个 角落 之 一 。 之 后 珍宝 一 直 存 在 于 其 出 现 的 位 置 ， 直 到 Agent 移动 到 那个 位 置 为 止 。 此 时 ，Agent 
立即 得 到 十 10 的 回报 ， 且 珍宝 在 下 一 个 状态 转移 时 消失 。Agent 和 珍宝 同时 移动 ， 从 而 使 得 Agent 
到 达 一 个 位 置 且 珍宝 也 在 该 位 置 出 现时 ，Agent 能 够 得 到 回报 。 

假设 我 们 正在 执行 异步 值 选 代 过 程 ， 且 每 个 状态 的 值 如 下 面 网 格 所 示 。 格 子 中 的 数字 表示 相 
应 状态 的 值 ， 空 格子 表示 值 为 0。 我 们 不 去 考虑 这 些 值 是 如 何 设 定 的 。 





左边 网 格 给 出 了 没有 珍宝 的 情况 下 状态 的 值 ， 右 边 的 网 格 给 出 了 右上 角 有 珍宝 的 情况 下 状态 
的 值 。 在 另外 三 个 角落 也 有 和 针对 珍宝 的 状态 ,不 过 你 可 以 假设 这 些 状态 的 当前 值 为 0。 
考虑 下 一 步 的 异步 值 选 代 。 对 于 状态 ss( 图 中 标记 * 的 格子 ) 和 动作 .as( 向 上 )， 下 一 步 迭 代 中 
QLsa ,az] 的 值 是 多 少 ? 请 给 出 你 的 计算 过 程 ， 但 不 必 做 算术 运算 (也 就 是 给 出 计算 的 表达 式 就 行 
了 )。 请 解释 表达 式 中 各 项 的 合 义 。 
在 一 个 决策 网 络 中 ， 假 设 其 中 有 多 个 效用 节点 。 在 这 些 节点 必须 把 值 加 起 来 。 这 就 要 求 我 们 设计 
一 个 一 般 的 求 和 效用 函数 。 如 何 修改 图 9-11 所 示 的 用 于 决策 网 络 的 VE 算法 以 包含 这 些 效用 ? 
如 何 修改 图 9-11 所 示 的 用 于 决策 网 络 的 变量 消除 算法 以 处 理 有 折扣 的 加 和 回报 ?也 就 是 说 ， 有 多 
个 效用 (回报 ) 节 点 需要 求 和 并 设置 一 些 折 扣 。 假 设 被 消除 的 变量 是 在 最 新 的 步骤 上 被 消除 的 。 
这 是 例 6-8 的 后 续 练 习 。 
(a) 当 观 察 到 报警 时 ， 需 要 作出 是 否 关闭 反应 堆 的 决策 。 关 闭 反 应 推 的 代价 是 c (与 反应 堆 核 心 是 
否 过 热 无 关 )， 而 在 反应 堆 核 心 过 热 时 不 关闭 反应 堆 会 导致 付出 cn 的 代价 一 一 该 代价 比 高 
很 多 。 为 原始 系统 ( 即 只 有 一 个 传感器 的 系统 ) 的 此 决策 问题 画 出 决策 网 络 。 对 于 必须 定义 的 
新 表格 (在 定义 新 表格 时 ， 表 格 中 合适 的 地 方 应 该 使 用 < Me), HAHAH. PAT LA 
假设 效用 是 代价 的 负 值 。 
Cb) 对 于 前 面 的 决策 网 络 ， 确 定 在 发 出 警报 时 ， 关 闭 反应 堆 和 不 关闭 反应 堆 的 期 望 效用 。 对 于 每 
一 个 要 消除 的 变量 ， 给 出 哪个 变量 被 消除 了 、 是 如 何 消除 的 (通过 加 和 还 是 通过 最 大 化 )、 去 
掉 了 哪些 因子 、 生 成 了 哪些 因子 及 该 因子 影响 哪些 变量 。 不 必 给 出 具体 的 表格 。 
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9.14 ”现实 生活 中 ， 在 我 们 不 知道 能 否 参加 或 者 不 确定 是 否 愿意 参加 的 情况 下 是 否 接受 一 个 邀请 是 我 们 
必须 做 的 一 个 决策 。 下 图 表示 了 这 个 问题 的 一 个 决策 网 络 : 





假设 所 有 的 决策 和 随机 变量 都 是 布尔 值 ( 即 值 域 是 {trxe，Jjazse}j)。 你 可 以 接受 邀请 ， 但 当 到 

了 赴 会 时 间 ， 你 仍然 需要 决定 是 否 能 赴 会 。 你 可 能 在 接受 衣 请 后 和 决定 赴 会 前 生病 了 。 即 使 你 决 

定 赴 会 ， 如 果 你 没有 接受 邀请 则 你 也 无 法 赶 会。 如果 你 生病 了 ， 那么 你 就 有 一 个 很 好 的 理由 不 去 

赴 会 。 你 的 效用 取决 于 你 是 否 接受 了 邀请 ， 你 是 否 有 一 个 好 的 理由 ， 及 你 是 否 真 的 赴 会 了 。 

(a) 给 出 一 个 表示 了 可 能 的 效用 函数 的 表格 。 假 设 了 唯一 的 最 好 的 结果 是 你 接受 邀请 、 你 没有 一 个 
很 好 的 理由 且 你 确实 赴 会 了 ; 唯一 的 最 坏 的 结果 是 你 接受 了 尊 请、 你 没有 一 个 很 好 的 理由 旦 
你 并 没有 实际 赴 会 。 给 出 其 他 的 合理 的 效用 值 。 

(b) 假设 在 接受 邀请 之 前 ， 你 需要 观察 自己 是 否 会 生病 。 请 注意 ， 这 个 变量 与 你 在 接受 邀请 后 生 
病 不 同 。 将 这 个 情况 加 入 网 络 中 。 你 不 能 改变 效用 函数 ,不 过 新 的 观察 必须 有 一 个 大 于 零 的 
信息 值 。 得 到 的 网 络 必须 是 决策 网 络 求解 算法 可 以 处 理 的 。 

(c) 假设 在 你 决定 是 否 接受 原始 邀请 之 后 、 实 奈 赴 会 之 前 ， 你 可 以 考查 是 否 有 一 个 更 好 的 邀请 
(一 个 与 原始 邀请 冲突 的 洲 请 ， 因 此 你 无 法 两 个 都 赴 会 )。 假设 你 更 愿意 接受 更 好 的 邀请 ， 
而 不 是 先前 前 邀请 。( 此 时 的 决策 困难 是 接受 第 一 个 邀请 ， 还 是 等 待 下 去 直到 得 到 更 好 的 六 
请 一 一 你 可 能 等 不 到 这 样 的 邀请 .) 不 幸 的 是 ， 有 另 一 个 邀请 不 能 成 为 一 个 好 的 理由 。 在 上 
面 的 网 络 中 ， 增 加 一 个 "更 好 的 邀请 ”节点 及 相关 的 边 以 处 理 这 个 情况 。( 不 必 包 含 问 题 (b) 
中 的 节点 和 边 。) 

(d) 在 问题 (c) 中 ， 如 果 在 “更 好 的 邀请 ”和 “接受 邀请 ”之 间 有 一 条 边 ， 请 解释 为 什么 有 (也 就 是 说 ， 
环境 中 的 哪 种 情况 使 加 入 这 条 边 成 为 合理 的 7?)。 如 果 没 有 这 条 这， 那么 这 条 边 应 该 连 到 哪里 ， 

同样 能 处 理 上 述 情景 ? 请 解释 此 时 使 得 该 改变 合理 的 具体 环境 。 

Ce) 如 果 在 “更 好 的 邀请 "和 “接受 邀请 ?之 间 没 有 边 (不 管 你 是 否 画 了 一 个 边 )、 那么 环境 中 的 什么 
因素 必 为 真 才能 使 缺失 这 条 边 成 为 合理 的 ? 

9.15 考虑 下 面 的 决策 网 络 : 





Ca) 初始 的 因子 有 哪些 ? (不必 列 出 对 应 的 表格 ， 只 需要 指明 它们 依赖 于 哪些 变量 。) 

(b) 对 于 一 个 合法 的 消除 排序 ， 请 说 明 在 优化 决策 函数 和 计算 期 望 值 的 过 程 中 生成 了 哪些 因子 。 
在 每 一 步 ， 请 解释 消除 了 哪个 变量 、 该 变量 是 加 和 了 还 是 最 大 化 了 、 哪 些 因子 组 合 在 了 一 起 、 
又 生成 了 哪些 因子 (指出 它们 依赖 的 变量 ,不 必 给 出 取 值 表格 )。 

(c) 如 果 在 决策 D 中 信息 A 的 值 为 0， 那 么 最 优 策 略 是 什么 样 的 ?请 给 出 任 一 个 最 优 策略 的 最 具 
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体 的 描述 。) 
9. 16 异步 值 迭 代 和 标准 的 值 迭 代 的 最 大 不 同 是 什么 ? 为 什么 异步 值 选 代 常 常 比 标准 的 值 欠 代 工 作 得 好 ? 
9.17 考虑 一 个 网 格 情景 ， 其 中 “向 上 ”的 动作 有 如 下 的 动态 性 : 


0.1 


E 
mia 


也 就 是 说 ， 以 0.8 的 概率 向 上 ， 分 别 以 0. 1 的 概率 向 左上 或 右上 。 假设 有 如 下 的 状态 : 


$12 Lao | su | 


进入 状态 5 的 回报 是 十 10， 进 入 状态 ss 的 回报 是 一 5。 其 他 状态 的 回报 是 0。 


折扣 率 为 0.9。 
假设 我 们 执行 的 是 异步 值 迭 代 算法 ， 存 储 了 QS. Al, 且 对 这 些 状态 有 如 下 的 值 : 
Visi) = 5 Vsi3) =7 Visu) =—3 


Vis) = 2 Visis) =4 VCs) =—6 420 
在 下 一 步 异 步 值 迭代 中 ， 假 设 我 们 选择 了 状态 si 并 采取 向 上 的 动作 。 那 么 Qs. up HB l 
值 是 多 少 ? 请 给 出 算式 ， 不 要 计算 或 者 简化 它 。 422 


423 
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Artificial Intelligence: Foundations of Computational Agents 


多 Agent 系统 





试想 一 下 有 一 个 代表 你 个 人 从 事 电子 商务 的 个 性 化 软件 Agent。 假 设 此 Agent 的 任务 
是 随时 间 跟 踪 各 在 线 场 所 可 销售 的 货物 ， 并 代表 你 购买 其 中 一 些 有 吸引 力 价格 的 货物 。 为 
了 获得 成 功 ， 你 的 Agent 需要 发 入 你 对 产品 的 偏好 、 你 的 预算 和 你 的 关于 工作 环境 的 一 般 
知识 。 此 外 ， 这 个 Agent 需 谈 入 你 的 关于 将 要 进行 交互 的 其 他 类 似 Agent 的 知识 (例如 ， 
可 能 构成 竞争 拍卖 的 Agent， 或 者 代表 商店 业主 的 Agent) 一 一 包括 他 们 自己 的 偏好 和 知 
识 。 这 些 Agent 的 集合 构成 了 一 个 多 Agent 系统 。 
—Yoav Shoham 和 Kevin Leyton-Brown|2008， 第 xvii 页 ] 


当 存 在 拥有 自己 价值 观 并 且 同 样 推理 做 什么 的 其 他 Agent It, Agent 怎样 做 呢 ? 一 个 
智能 Agent 不 应 该 忽略 其 他 的 Agent， 或 者 把 它们 当做 环境 中 的 噪声 。 我 们 考虑 的 问题 
是 ; 给 定 一 种 详细 描述 该 领域 如 何 运 作 的 机 制 来 确定 Agent 应 该 做 什么 ， 并 且 设 计 一 种 拥 
有 有 用 属性 的 机 制 。 


10.1 多 Agent 框架 


在 这 一 章 中 ,我们 考虑 有 多 个 Agent 的 情况 ， 其 中 : 
。 Agent 可 以 自主 行动 ， 每 一 个 Agent 都 有 自己 的 关于 该 领域 和 其 他 Agent 的 信息 ; 
。 结果 取决 于 所 有 Agent 的 动作 ， 机 制 (mechanism) 指 定 Agent 的 动作 如 何 产 生 
结果 ; 
+ 每 个 Agent 都 可 以 有 其 基于 结果 的 自己 的 效用 。 
每 个 Agent 基于 自己 的 效用 决定 做 什么 ， 但 它 也 必须 和 其 他 Agent 进行 交互 。 当 
Agent 基 于 自己 的 目标 或 效用 决定 做 什么 时 ， 称 为 “策略 性 (strategically) 行 为 ”。 
有 时 候 我 们 把 自然 (nature) 当做 一 个 Agent。 自 然 被 定义 为 一 个 特殊 的 Agent, ER 
有 价值 观 ， 不 采取 策略 性 行为 。 它 只 是 随机 地 动作 。 自 然 也 可 以 看 做 是 所 有 没有 策略 性 行 
为 的 Agent 的 集合 。 关 于 Agent 体系 如 图 1-3 所 示 ， 自 然 和 其 他 Agent 构成 了 Agent MH 
境 。 一 个 策略 性 的 Agent 不 能 把 其 他 策略 性 的 Agent 当做 是 自然 的 一 部 分 ， 国 为 它 应 该 推 
理 它们 的 效用 和 行为 ， 还 因为 其 他 Agent 有 可 能 会 与 其 进行 合作 和 协商 。 
在 多 Agent 系统 研究 中 有 两 个 极端 : 
。 完全 合作 的 (cooperative)， 其 中 的 Agent 共享 相同 的 效用 函数 
。 完全 竞争 的 (competitive) ， 只 有 一 个 输 ， 另 一 个 才 可 能 赢 。 这 些 通常 被 称 为 “ 零 和 
博弈 ”(zero-sum game), ， 即 效用 可 以 以 这 样 的 形式 表达 : 对 于 每 个 结果 ， 这 些 Agent 
的 效用 的 总 和 是 零 。 
大 多 数 交 互 是 在 这 两 个 极端 之 间 ， 这 些 Agent 的 效用 可 能 在 某 些 方面 是 互相 促进 的 ， 
在 某 些 方面 又 是 竞争 的 ， 在 有些 方 面 是 相互 独立 的 。 例 如 ， 两 个 相 邻 店 的 商业 Agent 也 许 
会 共享 拥有 干净 、 吸 引 人 的 街区 的 目标 ;它们 也 会 竞争 客户 ,但 是 它们 又 对 对 方 店 的 细节 
没有 偏好 。 有 时 它们 的 行为 互 不 干扰 ， 有 时 它们 又 相互 干扰 。 如 果 它 们 通过 合作 和 协商 来 
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协调 它们 的 行动 ，Agent 通常 可 以 做 得 更 好 。 

在 Neumann 和 Morgenstern[1953] 的 开创 性 工作 后 ， 大 多 开始 使 用 博弈 论 来 研究 多 
Agent 交互 。 使 用 博弈 论 ， 可 以 研究 Agent 之 间 的 很 多 交互 问题 。 即 使 是 相当 小 的 博弈 也 
可 以 展现 很 深刻 的 问题 。 然 而 ， 博 弈 论 的 研究 针对 的 是 一 般 的 多 Ageat 交互 ， 而 不 只 是 人 
工 的 博弈 。 

多 Agent 系统 在 人 工 智 能 中 是 普遍 存在 的 。 从 室内 游戏 ， 比 如 跳棋 、 国 际 象棋 、 五 子 
横 、 围 横 ， 到 机 器 人 足球 ， 到 交互 式 计 算 机 游戏 ， 再 到 复杂 经 济 系统 中 的 Agent, m 
论 是 人 工 智能 不 可 或 缺 的 。 博 弈 是 人 工 智能 最 早 的 应 用 之 一 。 最 早 的 强化 学 习 系 统 之 一 是 
Samuel[1959j] 的 跳棋 游戏 ， 其 中 第 一 个 可 操作 的 跳棋 程序 可 以 追 滴 到 1952 年 。1997 Æ, 
深蓝 已 经 大 张 旗 鼓 地 击败 了 国际 象棋 志 界 冠军 。 计 算 机 在 跳棋 和 五 子 棋 上 也 获得 了 成 功 ， 
但 是 它 在 围棋 上 就 没 那么 成 功 了 ， 因 为 过 大 的 搜索 空间 和 人 缺少 优秀 的 可 行 的 启发 式 算 法 。 
这 些 博 弈 虽然 大 ， 但 概念 上 是 简单 的 ， 因 为 Agent 可 以 观察 到 该 领域 的 所 有 状态 (它们 是 
完全 可 观察 ) 。 而 在 大 多 数 现实 世界 的 交互 中 ， 领 域 的 状态 是 不 可 观察 的 。 

现在 人 们 对 部 分 可 观察 的 博弈 更 有 兴趣 ， 比 如 扑克 ， 它 的 环境 是 可 以 预测 的 (即使 是 随 
机 的 ); 还 有 机 器 人 足球 ， 它 的 环境 不 好 预测 。 但 是 所 有 这 些 博弈 比 人 们 在 日 常生 活 中 表现 
出 的 多 Agent 交互 要 简单 得 多 ， 更 别 说 缺乏 明确 规则 且 效 用 包罗 万 象 的 实物 交易 市 场 了 。 


10.2 博弈 的 表示 


为 了 实现 多 Agent 交互 的 推理 ， 我 们 需要 给 出 Agent 可 能 行为 及 相应 回报 的 表示 。 在 
经 济 学 和 人 工 智能 中 已 经 提出 了 博弈 和 多 Agent 交互 的 很 多 表示 方案 。 在 人 工 智 能 中 , 这 
些 表 示 方 案 通常 会 尝试 表示 博弈 中 可 抽出 用 来 计算 收益 的 某 些 方面 。 

我 们 提出 三 种 表示 形式 ， 其 中 两 种 是 来 自 经 济 学 中 的 经 典 表示 形式 。 第 一 种 抽象 出 
Agent 的 所 有 策略 结构 。 第 二 种 模型 化 博弈 的 顺序 结构 ， 它 是 棋盘 博弈 表示 的 工作 基础 。 
第 三 种 表示 方案 摆脱 了 基于 状态 的 表示 而 使 用 基于 特征 的 表示 。 


10.2.1 博弈 的 标准 形式 


博弈 最 基本 的 表示 形式 是 博弈 的 策略 形式 (strategic form of a game) 或 标准 形式 的 博 


Æ (normalform game) 。 博 弈 的 策略 形式 由 以 下 组 成 : 
。 Agent 的 一 个 有 限 集合 TI，T 为 整数 集 ， 人，…，7)。 
。 每 个 Agent iE I 的 动作 集合 A。 给 定 每 个 Agent iE I 的 A; 的 赋值 称 为 一 个 动作 
组 合 (action profile), 一 个 动作 组 合 可 以 看 成 是 一 个 元 组 《ai， Ey An?» 它 表 示 
Agent i 实施 动作 ais 
。 um 为 给 定 一 个 动作 组 合 时 ， 每 个 Agent iE 工 的 效用 函数 ， 表 示 对 于 一 个 给 定 动 作 
组 合 的 Agent i 返回 期 望 效用 。 
所 有 Agent( 一 个 动作 组 合 ) 的 共同 作用 产生 出 一 个 结果 。 每 个 Agent 在 每 个 结果 上 都 
有 一 个 效用 。Agent 的 效用 是 指 Agent 所 感 兴趣 的 一 切 ， 包 括 公 平和 社会 福 社 。 因 此 ， 我 
们 假设 每 个 Agent 试图 使 自己 的 效用 最 大 化 ， 而 不 关心 其 他 Agent 的 效用 。 
【 例 10-1) 石头 前 子 布 是 一 种 常见 的 儿童 游戏 ， 甚 至 还 有 一 个 石头 前 子 布 的 世界 冠 
军 。 假 设 有 两 个 Agant( 玩 家 )，Alice 和 Bob。 每 个 Agent 有 三 个 动作 ， 所 以 


Asie = Ape = {rock „paper scissors} . 
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对 Alice 和 Bob 每 个 动作 组 合 ，Alice 会 有 一 个 效用 ，Bob 也 会 有 一 个 效用 。 通 常 我 们 
用 图 10-1 所 示 的 表 来 表示 ， 这 就 是 所 谓 的 收益 矩阵 (payoff matrix), Alice 选择 行 ，Bob 
选择 列 。 这 给 出 了 一 个 数字 对 : 第 一 个 数字 是 行 上 的 玩家 (CAlice) 的 收益 ， 第 二 个 是 列 上 的 
玩家 (Bob) 的 收益 。 需 要 注意 的 是 ， 它们 中 的 每 个 玩家 的 效用 取决 于 双方 玩家 的 动作 。 动 
作 组 合 的 一 个 例子 是 (scissorsakee rocks)» BI Alice 选择 出 剪子 ，Bob 选择 出 石头 。 在 这 
个 动作 组 合 中 ，Alice 得 到 的 效用 为 一 1，Bob 得 到 的 效用 为 1。 这 是 个 零 和 博弈 ， 因 为 只 
有 一 方 输 了 另 一 方才 能 赢 。 


Alice 





图 10-1 石头 剪子 布 游戏 的 策略 形式 过 


博弈 的 这 个 表示 形式 有 很 大 的 局 限 性 ， 因 为 它 只 基于 每 个 Agent 的 单一 动作 给 出 了 一 
次 性 收益 ， 这 些 动 作 同时 被 每 一 个 Agent 所 选择 。 然 而 ， 动 作 定 义 的 解释 却 很 宽泛 。 

通常 情况 下 ，“ 动 作 ” 不 只 是 一 个 简单 的 选择 ， 而 是 一 种 策略 : 在 各 种 突 发 情况 下 ，Agent 
将 要 做 什么 的 一 种 规范 。 从 本 质 上 讲 ， 其 标准 形式 是 给 定 Agent 可 能 策略 的 效用 的 规范 。 
这 就 是 它 被 称 为 博弈 的 策略 形式 的 原因 。 

在 一 般 情况 下 ，“ 动 作 ” 在 标准 形式 博弈 中 的 定义 是 Agent 的 控制 器 。 因 此 ， 每 个 Agent 
选择 一 个 控制 器 ， 在 环境 中 运行 的 每 个 Agent 控制 器 产生 预期 的 结果 就 是 效用 。 虽 然后 面 
的 例子 中 是 简单 的 动作 ， 但 是 一 般 情 况 下 每 个 Agent 可 能 采取 的 动作 (可 能 的 控制 器 ) 的 数 
量 是 巨大 的 。 


10.2.2 ”博弈 的 扩展 形式 


鉴于 博弈 的 标准 形式 把 控制 器 表示 为 单个 单位 ， 那 么 在 时 间 上 展开 博弈 的 规范 更 自 
然 。 博 弈 的 扩展 形式 是 单个 Agent 决策 树 的 扩展 。 我 们 首先 给 出 一 个 定义 ， 假 定 这 个 博弈 
是 完全 可 观察 的 ( 称 为 博弈 论 中 的 完全 信息 )。 

完全 信息 博弈 的 扩展 形式 (extensive form) 或 博弈 树 (game tree) 是 一 个 有 限 树 ， 其 中 
树 中 的 节点 是 状态 ， 弧 对 应 的 是 Agent 的 动作 。 实 际 上 : 

。 每 个 内 部 节点 被 标记 为 Agent( 或 者 nature), Agent 用 来 控制 节点 。 

。 从 标记 为 Agent i 的 节点 出 来 的 每 个 弧 对 应 的 是 Agent i 的 行为 。 

。 每 个 标记 为 nature 的 内 部 节点 都 有 关于 它 的 子 节 点 的 概率 分 布 。 

。 叶子 节点 表示 最 后 结果 并 用 Agent 的 效用 来 标记 。 

一 个 博弈 的 扩展 形式 指定 了 一 个 特定 的 博弈 展开 。 每 个 到 时 子 节点 的 路 径 称 为 一 次 运行 
(run)， 指 定 了 通过 依赖 于 Agent By nature 的 选择 使 博弈 能 够 进行 下 去 的 一 条 特定 路 径 。 

Agent i 的 一 个 纯 策 略 是 一 个 从 被 Agent i 控制 的 节点 到 动作 的 函数 。 也 就 是 说 ， 一 个 
纯 策 略为 每 个 Agent i 控制 的 节点 选择 子 节点 。 一 个 策略 组 合 (strategy profile) 包 含 了 每 
个 Agent 的 策略 。 

【 例 10-2) 试想 一 个 共享 的 博弈 ， 有 两 个 Agent， 分 别 为 Andy 和 Barb， 并 且 有 两 个 
相同 的 东西 要 分 给 他 俩 。Andy 首先 选择 如 何 分 配 它们 : Andy 都 保留 ， 或 者 选择 分 享 使 每 
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和 人均 得 到 一 个 ， 或 者 都 给 Barb, SIG Barb 可 以 拒绝 这 次 分 配 从 而 他 们 两 个 什么 也 得 不 到 ， 
或 者 他 接受 分 配 从 而 他 们 两 个 都 得 到 了 相应 数量 。 
图 10-2 中 表示 出 了 共享 博弈 的 扩展 形式 。 
Andy 有 3 个 策略 。Barb 有 8 个 纯 策略 ， 每 个 策 
略 是 它 所 控制 节点 的 分 配 的 组 合 。 结 果 共 有 24 个 
策略 组 合 。 < 
给 定 一 个 策略 组 合 ， 每 个 节点 对 每 个 Agent 
都 有 一 个 效用 。 一 个 节点 上 的 Agent 的 效用 从 下 
往 上 递归 定义 : 
。 叶子 节点 上 每 个 Agent 的 效用 给 定 为 叶子 
节点 的 一 部 分 。 
。 被 Agent i 控制 的 某 个 节点 上 Agent j 的 效用 是 由 Agenti 的 策略 所 选择 的 子 节点 
上 的 Agent 7 的 效用 。 
。 被 nature 控制 的 节点 上 的 Agent i 的 效用 是 其 子 节点 上 的 Agent i 效用 的 期 望 值 。 


也 就 是 说 , ud) = 2)P(c)uilc) ， 其 中 的 求 和 包括 节点 n 上 所 有 的 子 节点 c， 


P(c) 是 nature 选择 子 节点 c 的 概率 。 427 

【 例 10-3) 在 共享 博弈 中 ， 假 设 我 们 有 以 下 策略 组 合 : Andy 选择 keep, H Barb 对 她 
会 选择 的 每 个 节点 选择 no，yes，yes。 根 据 这 个 策略 组 合 ， 在 最 左 内 部 节点 上 Andy 的 效 
用 是 0， 在 中 间 内 部 节点 上 Andy 的 效用 是 1， 在 最 右 内 部 节点 上 Andy 的 效用 是 0。 在 根 
节点 上 Andy 的 效用 是 0。 本 

前 面 定 义 的 博弈 的 扩展 形式 假定 Agent 可 以 观察 到 世界 状态 (也 就 是 说 ， 它 们 知道 每 
一 步 是 什么 节点 ) 。 这 意味 着 ， 博 弈 的 状态 必须 是 充分 可 观察 的 。 在 一 个 部 分 可 观察 博弈 
或 者 一 个 不 完全 信息 博弈 中 ，Agent 并 不 一 定 知道 博弈 的 状态 。 为 了 建 模 这 些 博弈 的 扩展 
形式 ， 我 们 介绍 下 信息 集 的 概念 。 一 个 信息 集 (information set) 是 一 个 节点 集合 ， 它 们 都 
被 同一 个 Agent 控制 并 且 拥 有 同一 个 可 用 的 动作 集合 。 这 意味 着 Agent 无 法 区 分 信息 集中 
的 元 素 。Agent 只 知道 这 个 博弈 的 状态 是 在 信息 集中 的 某 个 节点 上 ， 但 不 知道 具体 在 哪个 
节点 上 。 在 一 个 策略 中 ，Agent 为 每 个 信息 集 i 
选择 一 个 动作 ; 在 信息 集中 的 每 个 节点 上 进行 
同样 的 行为 。 因 此 ， 在 扩展 形式 中 , 一 个 策略 
指定 了 从 信息 集 到 动作 的 一 个 函数 。 

〖 例 10-4) 图 10-3 给 出 了 例 10-1 的 石头 
前 子 布 游戏 的 扩展 形式 。 信 息 集 的 元 素 在 一 个 
圆 角 矩形 中 。Bob 必须 为 信息 集中 的 每 个 节点 00 -L01 1-1 000 Ra ay Lt 6:0 
选择 相同 的 动作 。 < 图 10-3 “石头 剪刀 布 ? 博 弈 的 扩展 形式 


10.2.3 多 Agent 决策 网 络 


博弈 的 扩展 形式 可 以 看 做 博弈 的 基于 状态 的 表示 形式 。 正 如 我 们 在 前 面 已 经 看 到 的 ， 
在 特性 方面 来 描述 状态 往往 更 简洁 。 多 Agent 决策 网 络 (multiagent decision network) 是 多 
Agent 决策 问题 的 一 个 因素 表示 形式 。 除 了 每 个 决策 点 被 标记 为 Agent， 其 为 节点 选择 一 
个 值 ， 这 类 似 于 决策 网 络 。 每 个 Agent 有 一 个 效用 节点 ， 它 指定 了 这 个 Agent 的 效用 。 当 





20° 0,8 It 0 02 0,0 
图 10-2 共享 博弈 的 扩展 形式 
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Agent 必须 采取 行动 时 ; 决策 节点 的 父 节点 指定 该 Agent 可 用 的 信息 。 

【 例 10-5) 10-4 给 出 了 一 个 消防 部 门 的 多 Agent 决策 网 络 的 例子 。 在 此 方案 中 ， 
有 两 个 Agent，Agent 1 和 Agent 2。 每 个 都 拥有 辨别 是 和 否 发 生火 灾 的 噪声 传感器 。 然 而 ， 
如 果 它 们 都 呼叫 ， 它 们 的 呼叫 可 能 会 互相 干扰 导致 每 个 呼叫 都 不 管用 。Agent 1 可 以 选择 
决策 变量 Calll 的 值 ， 并 且 只 能 观察 到 变量 Alarm] 的 值 。Agent 2 可 以 选择 决策 变量 
Call2 的 值 ， 并 且 只 能 观察 到 变量 Alarm? 的 值 。 该 呼叫 是 否 工作 取决 于 Calil 和 Call2 的 
值 ， 而 消防 部 门 是 否 到 来 取决 于 呼叫 是 否 工作 。Agent 1 的 效用 取决 于 三 个 方面 : BEA 
火灾 、 消 防 部 门 是 否 到 来 和 它们 是 否 呼 叫 一 一 Agent 2 也 是 如 此 。 





图 10-4 火灾 事例 的 多 Agent 决策 网 络 < 


一 个 多 Agent 决策 网 络 能 被 转换 成 一 个 标准 形式 的 博弈 ， 然 而 ， 策 略 的 数量 可 能 是 巨 
大 的 。 如 果 一 个 决策 变量 有 a 个 状态 , 元 个 二 进 制 的 父 节 点 ， 那 么 父 节点 有 2" 个 分 配 值 ， 


Ad” 个 策略 。 这 仅仅 是 一 个 单一 决策 节点 ， 更 多 复杂 网 络 在 转换 为 标准 形式 时 会 更 加 庞 
大 。 因 此 ， 我 们 提出 的 与 策略 数量 成 指数 关系 的 算法 不 可 能 对 任意 情况 可 行 ， 只 适用 于 最 
小 的 多 Agent 决策 网 络 。 

还 有 利用 其 他 结构 来 表示 多 Agent 系统 的 形式 。 例 如 ， 一 个 Agent 的 效用 也 许 会 取决 
于 采取 某 种 动作 的 Agent 的 数量 ， 而 不 是 取决 于 它们 自身 。 一 个 Agent 的 效用 也 许 会 依赖 
于 一 小 部 分 Agent 的 行为 ， 而 非 所 有 其 他 Agent 的 行为 。 一 个 Agent 的 效用 也 许 仅仅 取 
决 于 临近 位 置 Agent 敌 什 么 ， 而 不 是 这 些 Agent 的 本 体 或 者 其 他 Agent 做 什么 。 


10.3 完全 信息 的 计算 策略 


多 Agent 的 完全 可 观察 性 相当 于 拥有 完全 信息 (perfect information) 。 在 完全 信息 博 
FP, Agent 按 顺 序 行 动 ， 当 一 个 Agent 要 行动 时 ， 它 会 在 决定 做 什么 之 前 观察 这 个 世界 
的 状态 。 每 个 Agent 均 以 使 自己 的 效用 最 大 化 为 目的 采取 行动 。 

完全 信息 博弈 可 以 扩展 形式 的 博弈 来 表示 ， 其 中 信息 集 只 包含 一 个 节点 。 它 们 也 可 以 
表 采 用 一 个 多 Agent 决策 网 络 表示 ， 其 中 决策 节点 是 完全 排序 的 ， 且 对 每 个 决策 节点 ， 其 
父 节 点 包含 前 继 决 策 节点 和 它们 所 有 的 父 节点 ( 即 它们 是 没有 遗忘 的 决策 网 络 )。 

完全 信息 博弈 也 可 以 用 类 似 完 全 可 观察 的 单一 Agent 系统 的 方法 来 解决 。 我 们 可 以 用 
向 后 的 动态 规划 或 者 向 前 的 搜索 来 解决 。 与 单一 Agent 的 情况 不 同 的 是 ， 多 Agent 算法 为 
每 个 Agent 每 次 的 移动 保留 一 个 效用 ， 它 选择 一 个 动作 使 Agent 移动 效用 最 大 化 。 动 态 规 
划 的 变 体 称 为 逆向 归纳 法 (backward induction) A M LBA Agent 节点 的 效用 
定义 ， 但 是 在 每 个 节点 上 ， 控 制 节 点 的 Agent 要 选择 使 得 它 的 效用 最 大 化 的 动作 .。 
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CO) 10-6) 考虑 图 10-2 的 共享 博弈 。 对 每 个 标记 为 Barb 的 节点 ， 她 要 选择 使 她 效用 
最 大 化 的 值 。 因 此 ， 她 会 为 她 所 控制 的 右面 两 个 节点 选择 “yes”， 要 么 她 就 将 要 选择 她 控 
制 的 最 左面 的 节点 了 。 假 设 她 对 这 个 节点 选择 “no”， 那 么 Andy 就 要 选择 下 列 行为 中 的 一 
个 ，keep 对 他 的 效用 是 0，share 的 效用 是 1, give 的 效用 是 0， 所 以 他 选择 共享 。 < 

”在 两 个 Agent 的 竞争 环境 中 ， 一 个 Agent 有 正 的 收益 ， 另 一 个 Agent 则 为 负 的 收益 ， 
这 是 一 个 2-Agent 的 零 和 博弈 。 这 种 博弈 的 特征 可 以 用 一 个 数字 来 表述 ， 一 个 Agent 试图 
使 该 值 最 大 化 ， 而 另 一 个 Agent 试图 使 其 最 小 化 。 对 于 一 个 2-Agent 零 和 博弈 ， 该 单一 值 
会 引出 一 个 极 大 极 小 Cminimax) 策 略 。 如 果 是 被 试图 最 大 化 的 Agent 控制 的 节点 ， 那么 每 
个 节点 是 一 个 MAX 节点 ; 或 者 如 果 是 被 试图 最 小 化 的 Agent 控制 的 节点 ， 那 么 每 个 节点 
是 一 个 MIN 节点 。 i 

道 向 归纳 法 可 用 来 找到 最 佳 的 极 大 极 小 策略 。 从 下 往 上 ， 道 向 归纳 法 在 MAX 节点 最 
Kik. Æ MIN 节点 最 小 化 。 然 而 ， 逆 向 归纳 法 需要 对 整个 博弈 树 进行 遍历 。 通 过 剪 枝 掉 
不 可 能 成 为 最 优 方 案 的 那 部 分 搜索 树 来 实现 。 

【 例 10-7] 考虑 图 10-5 中 的 博弈 树 搜索 。 在 该 图 中 ， 方 形 MAX 节点 由 最 大 化 Agent 
控制 ， 圆 形 MIN 节点 由 最 小 化 Agent 控制 。 





10-5 . 零 和 博弈 树 的 节点 剪 枝 


假设 给 定 博弈 的 定义 的 情况 下 ， 叶 子 节点 的 值 可 以 给 定 或 者 可 以 计算 出 来 。 正 如 图 中 
所 示 ， 底 部 的 数字 显示 了 部 分 值 ， 其 他 值 忽 略 。 假 设 我 们 对 这 个 树 进行 从 左 开始 深度 优先 
遍历 。 节 点 的 值 是 7， 因 为 它 是 7 和 9 中 的 最 小 值 。 仅仅 通过 考虑 i 的 最 左 子 节点 ， 其 
值 是 6， 我 们 知道 i 的 值 是 小 于 或 等 于 6 的 。 因 此 ， 在 节点 2， 最 大 化 Agent 将 向 左 走 。 
我 们 没有 必要 评估 i 的 其 他 子 节 点 。 相 似 的 ,ji 的 值 是 11， 所 以 e 的 值 至 少 是 11， 在 节点 
b 的 最 小 化 Agent 将 会 选择 向 左 走 。 

2 的 值 小 于 或 等 于 5， 六 的 值 小 于 或 等 于 4; 因此 ，f 的 值 小 于 或 等 于 5， 所 以 < 的 值 
将 会 小 于 或 等 于 5。 所 以 ， 在 节点 &， 最 大 化 Agent 将 会 选择 向 左 走 。 要 注意 的 是 ， 这 种 
说 法 不 取决 于 没有 数字 的 叶子 节点 的 值 ， 它 也 不 取决 于 没有 探讨 的 子 树 的 大 小 。 < 

前 面 的 例子 分 析 了 什么 样 的 节点 可 以 被 剪 枝 。 极 大 极 小 a-B 剪 枝 是 一 个 深度 优先 搜索 
算法 ， 它 通过 向 下 传递 参数 a 和 8 的 剪 枝 信息 来 剪 枝 。 在 这 个 深度 优先 搜索 中 ,节点 有 
“当前 ” 值 ， 这 个 值 由 它 的 子孙 节点 取得 。 当 它 得 到 更 多 有 关 它 其 他 子孙 节点 值 的 信息 时 ， 
这 个 当前 值 可 以 随 之 更 新 。 

参数 & 可 以 用 于 剪 枝 MIN 节点 。 最 初 ， 对 于 当前 节点 的 所 有 MAX 祖先 ， 它 是 最 大 
的 当前 值 。 任何 当前 值 小 于 等 于 它 的 < 值 的 MIN 节点 没有 必要 更 进一步 探讨 。 在 前 面 的 
HTE, 采用 这 个 思路 来 前 枝 1、m Ac 的 其 他 后 代 节 点 。 

与 之 相对 的 是 参数 B， 它 可 以 用 来 剪 枝 MAX 节点 。 
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图 10-6 给 出 了 of 剪 枝 的 极 大 极 小 算法 。 它 起 初 被 称 为 
MinimaxAl phaBeta(R, — 60,00) 


: procedure MininmazxAl phaBeta(N,. a, ® 





其 中 及 是 根 节点 。 要 注意 的 是 ， 它 使 用 w | 2 "wa 
作为 MAX 节点 的 当前 值 ，B 作为 MIN 节 ”| 3 Ne 博 讲 树 中 的 一 个 节点 
点 的 当前 值 。 ae 
【 例 10-8) 考虑 在 图 10-5 中 的 树 : 节点 的 什 
上 运行 MinimaxAlphaBeta。 我 们 将 展 1; if N BOF A then 
cess é Ian return N 的 值 
示 递 归 调 用 。 最 初 ， 它 调用 : else if N 是 MAX 节点 then 
MinimazAl phaBeta (a, — 2,02) for each N 的 子 节点 C do 
A : Set a<-max(a, MinimaxAlphaBeta(C, a, B)) 
然后 依次 调用 
MinimaxAlphaBeta(b, 一 cyco) return 2 
MinimaxAl phaBeta ld, — 00,02) : return a 
MinimazAl phaBeta(h, — co,00) ‘ae 
» 3 for each N 的 子 节 点 € do 
最 后 一 次 调用 查找 它 的 两 个 子 节 点 中 Set Bemin(p, MinimaxAlphaBeta(C, a» P) 
最 小 的 那个 ， 并 且 返 回 值 7。 接 下 来 程 Pe ae 
` 3 return a 
序 调用 yae 
MinimaxAlphaBeta (i, 7,20) 
然后 得 到 i 的 第 一 个 子 节点 的 值 是 6。 了 


由 于 a 宇 8， 返 回 值 65。 然后 4 的 调用 返回 值 7， 并 且 它 调用 

MinimaxAl pha Beta (le, — 22,7) 
节点 e 的 第 一 个 子 节点 返回 值 11， 并 且 由 于 >8， 返 回 值 11。 然 后 5 返回 值 ?， 并 且 a 调用 了 

MinimaxAlphaBeta (c,7,°°) 
接着 调用 

MinimazAl phaBeta ( f ,7 ,°2) 
最 终 返 回 值 5， 所 以 c 的 调用 返回 值 5， 所 以 最 终 整 个 程序 返回 值 7。 

通过 跟踪 值 ， 最 大 化 Agent 知道 在 a 处 向 左 走 ， 然 后 最 小 化 Agent 在 5 处 将 向 左 走 ， 
等 等 。 本 

该 算法 提供 的 剪 枝 量 取决 于 每 个 节点 的 子 节点 的 排序 。 如 果 一 个 MAX 节点 的 最 高 值 
子 节点 首先 被 选中 ， 并 且 一 个 MIN 节点 的 最 低 值 首先 被 返回 ， 那 它 的 效果 最 好 。 在 真正 
博弈 的 实现 中 ,很 多 的 努力 都 是 要 保证 这 一 结果 。 

大 多 数 真 实 的 博弈 即使 使 用 ep 剪 枝 也 无 法 进行 极 大 极 小 搜索 。 对 于 这 些 博弈 ， 通 常 
可 在 任何 节点 停止 ， 而 不 再 是 叶子 节点 。 在 算法 停止 的 节点 上 返回 的 值 即 是 对 这 个 节点 的 
一 个 评估 值 。 用 来 评估 这 个 值 的 函数 叫 评价 函数 (evaluation function)。 已 有 大 量 寻 找 优 秀 
的 评价 函数 的 工作 。 此 类 工作 有 一 点 需要 注意 ， 在 计算 评价 函数 所 需要 的 计算 量 与 在 给 定 
的 时 间 内 可 搜索 的 搜索 空间 的 大 小 上 需 有 一 个 权衡 。 至 于 如 何在 复杂 的 计算 和 巨大 搜索 空 
间 之 间 进 行 权衡 就 是 个 经 验 问题 了 。 


10.4 部 分 可 观察 的 多 Agent 推理 


部 分 可 观察 性 是 指 一 个 Agent 不 知道 世界 的 完全 状态 或 者 所 有 的 Agent 同时 行动 。 

部 分 可 观察 下 的 多 Agent 的 情况 比 完 全 可 观察 下 的 多 Agent 的 情况 或 部 分 可 观察 下 的 
单一 Agent 的 情况 更 复杂 。 下 面 这 个 简单 的 例子 显示 了 即使 仅 有 两 个 Agent 并 且 每 个 Agent 
只 有 很 少 选择 的 情况 下 也 会 出 现 的 一 些 重 要 问题 。 
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【 例 10-9] 考虑 如 图 10-7 所 描述 情况 ,在 足球 比赛 中 罚 点 球 。 如 果 射 门 者 向 他 的 右 
边 踢 并 且 和 守门 员 向 他 的 右边 跳 起 ， 进 球 的 概率 是 0.9， 图 中 同样 给 出 了 其 他 的 动作 组 合 。 





图 10-7 点 球 大 战 。 射 门 者 可 选择 向 左 或 者 向 有 射 ， 守 门 员 可 以 选择 向 左 或 者 向 右 扑 


当 射 门 者 希望 进 球 概 率 最 大 而 守门 员 希 望 进 球 概率 最 小 的 情况 下 ， 射 门 者 应 该 怎么 做 ? 
射门 者 可 能 会 认为 最 好 往 他 的 右边 足 ， 因 为 往 右 踢 的 那 对 数字 比 往 左 踊 的 那 对 数字 要 大 。 守 
门 员 可 能 会 认为 如 果 射 门 者 往 右 踊 ， 那 他 应 该 往 左 跳 。 然 而 ， 如 果 射 门 者 认为 守门 员 要 想 
左 跳 ， 那 他 应 该 往 左 跑 。 但 是 随后 ， 守 门 员 应 该 往 右 跳 ， 然 后 射门 者 应 该 往 右 踢 。 

每 个 Agent 可 能 会 面 对 推 理 男 一 个 Agent 将 要 做 什么 的 无 限 回 归 。 在 它们 推理 的 每 个 
MEF, Agent 会 反 转 它们 的 决策 。 然 而 ， 人 们 可 以 想象 在 某 一 处 中 断 ， 那 么 该 动作 就 单 
纯 地 是 一 个 任意 深度 的 函数 。 更 糟 的 是 ， 如 果 射 门 者 知道 守门 员 推 理 的 次 度 限 制 ， 他 就 可 
以 利用 这 个 知识 来 决定 射门 者 要 做 什么 并 且 适 当地 选择 他 的 动作 。 

Agent 的 另 一 个 方法 是 随机 地 选择 动作 。 你 可 以 想象 射门 者 和 和 守门员 各 自 偷 偷 地 扔 硬 
币 来 决定 做 什么 。 然 后 你 应 该 考虑 硬币 是 否 是 有 偏向 的 。 假 设 射 门 者 决定 以 概率 pi 往 他 
的 右面 跑 ， 守门 员 决 定 以 概率 p 往 他 的 右面 跳 。 那 么 进 球 的 概率 是 

0. Ipin +0. 3p, (1 — p;) +0. 201 — pp; +0. 601 — pC — p,) 

10-8 将 进 球 的 概率 表示 为 p 的 函数 。 不 同 的 行 对 应 于 b, 的 不 同 值 。 

当 值 pi 一 0;4 时 有 些 特殊 。 在 这 个 值 
中 ， 进 球 的 概率 是 0.48， 它 独立 于 p 的 
值 。 也 就 是 说 ， 不 管 守门 员 做 什么 ,射门 
者 进 球 的 预期 概率 是 0.48。 如 果 射 门 者 偏 
AS 太一 0.4， 他 可 以 做 得 更 好 或 者 更 坏 ， 
但 这 取决 于 守门 员 做 什么 。 

对 于 与 p=0.3 相交 的 所 有 行 ，p; 的 
情况 也 是 类 似 的 。 再 次 ， 当 p=0.3 mh, H 
球 的 概率 是 0. 48, 

Pr=0.4 Ap, =0.3 的 策略 是 特殊 的 ， 图 10-8 ”将 进 球 概率 表示 为 动作 概率 的 函数 
在 这 个 意义 上 ，Agent 通过 单方 面 偏离 这 个 策略 都 不 能 做 得 更 好 。 然 而 ， 这 并 不 意味 着 他 
们 不 能 做 得 更 好 ; 如 果 Agent 中 的 一 个 偏离 了 这 种 均衡 ， 另 一 个 Agent 通过 偏离 这 种 均衡 
可 以 做 得 更 好 。 但 是 ， 这 种 均衡 对 于 Agent 是 安全 的 ， 意 义 在 于 即使 男 外 一 个 Agent 知道 
一 个 Agent 的 策略 ， 另 外 一 个 Agent 也 不 能 强制 这 个 Agent 得 到 更 坏 的 结果 。 使 用 这 个 
策略 意味 着 一 个 Agent 不 必 担 心 对 另 一 个 Agent 双向 猜测 。 他 将 会 得 到 他 所 能 保证 得 到 的 
最 好 回报 。 < 

现在 让 我 们 扩大 策略 的 定义 使 其 包括 随机 策略 。 

考虑 博弈 的 标准 形式 ， 其 中 每 个 Agent 要 同时 选择 一 个 动作 。 每 个 Agent 在 不 知道 另 
一 个 Agent 选择 的 情况 下 选择 一 个 动作 。 
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一 个 Agent 的 策略 是 该 Agent 动作 的 一 个 概率 分 布 。 如 果 这 个 Agent 行动 非常 确定 ， 其 
中 一 个 概率 是 1， 一下 的 是 0， 这 叫做 一 个 纯 策 略 (pure strategy)。 如 果 这 个 Agent 没有 纯 策 
略 ， 其 中 没有 一 个 概率 是 1， 并且 将 有 一 个 以 上 动作 的 概率 是 非 零 的 ,这 叫做 随机 策略 
(stochastic strategy) 。 在 一 个 策略 中 非 零 概率 的 动作 集 叫 做 这 个 策略 的 支持 集 (support set) 。 

一 个 策略 组 合 (strategy profile) 是 对 每 个 Agent 的 一 个 策略 分 配 。 如 果 so 是 一 个 策略 

合 ，e 是 在 oa 中 Agent 7 的 策略 ，o_; 是 其 他 Agent 的 策略 。 那么 zc 是 co-;。 如 果 这 个 策 
略 组 合 由 纯 策略 组 成 ， 它 通常 叫做 一 个 动作 组 合 Cactionm profile), AA Agent 都 有 一 
个 特定 的 动作 。 

一 个 策略 组 合 对 每 个 Agent 有 一 个 效用 。utility(o， 1) RMAF o 对 Agent i 的 效 
用 。 当 给 定 构成 组 合 的 基本 动作 的 效用 以 及 动作 的 概率 时 ， 通 过 计算 期 望 效用 可 以 得 出 一 
个 随机 策略 组 合 的 效用 。 

Agent i 对 其 他 Agent 的 策略 o_; 的 一 个 最 好 回应 (best response) 是 对 该 Agent 有 着 最 
大 效用 的 策略 。 也 就 是 说 ，ai 是 ao_; 的 最 好 回应 ， 当 对 Agent i 所 有 其 他 的 策略 有 

utility (oiai) > utility (gai si) 

对 每 个 Agent i 来 说 ， 如 果 策 略 a 是 o-_; 的 最 好 回应 ,那么 这 个 策略 组 合 a 就 是 一 个 纳 
什 均衡 CNash equilibrium)。 也 就 是 说 ， 一 个 纳什 均衡 就 是 一 个 策略 组 合 ， 任 何 Agent 通 
过 单方 面 偏离 这 个 组 合 不 可 能 做 得 更 好 。 

Nash[1950] 的 一 个 伟大 成 果 是 每 个 有 限 的 博弈 至 少 拥有 一 个 纳什 均衡 点 。 

【 例 10-10] 在 例 10-9 中 ， 当 pi 二 0. 4，p; 三 0.3 时 有 唯一 的 纳什 均衡 。 它 的 含义 是 如 
果 射 门 者 的 六 一 0.4， 那 无 论 守 门 员 租 什么 都 无 所 谓 ; 守门 员 都 会 有 辐 样 的 回报 ， 所 以 
py =0. 3 是 一 个 最 好 回应 (任何 其 他 策略 也 一 样 )。 同 样 ， 如 果 守 门 员 的 方 三 0.3， 那 无 论 射 
门 者 做 什么 都 无 所 谓 ; 每 二 个 策略 也 一 样 ， 包 括 二 0.4， 是 一 个 最 好 回应 。Agent 可 以 在 
两 个 动作 中 随机 选择 唯一 的 原因 是 动作 是 否 有 同样 的 期 望 效 用 。 两 个 动作 的 所 有 的 随机 混合 
具有 同样 的 效用 。 为 混合 概率 选择 一 个 特定 值 的 原因 是 为 了 防止 其 他 Agent 利用 这 种 偏离 。 

有 很 多 多 个 纳什 均衡 点 的 例子 。 考 虑 下 面 的 2-Agent 和 2- 动作 的 博弈 。 

【 例 10-11) 假设 两 个 Agent 要 竞争 一 个 资源 。 每 个 Agent 可 以 选择 像 一 只 应 或 者 一 
只 久子 来 行动 。 假 设 这 个 资源 价值 为 RPMI, R>O, MRT Agent MRM FALE, 
则 它们 共享 这 个 资源 。 如 果 一 个 Agent RMALE ATPASE. ABM Agent 会 得 到 资 
源 而 镶 子 Agent 什么 也 得 不 到 。 如 果 它 们 都 像 鹰 动作， 就 会 破坏 资源 并 且 每 个 Agent 将 得 
到 回报 为 一 D， 其 中 也 >0。 这 可 以 由 下 面 的 收益 矩阵 来 描述 : 


Agent 2 


BTF bs 
Ast! WF | Re, RA] oR | 
m | Ro |-5 -5| 


在 这 个 矩阵 中 ，Agent 1 选择 行 ，Agent 2 选择 列 ， 在 单元 格 里 的 收益 由 Agent 1 和 
Agent 2 的 回报 对 组 成 。 每 个 Agent 要 试 着 最 大 化 它 自 身 的 回报 。 
在 这 个 博弈 中 有 三 个 纳什 均衡 : 
。 第 一 个 均衡 中 ，Agent 1 EE, Agent 2 RFE., Agent 1 不 想 要 偏离 ， 因 为 
那样 的 话 它们 就 必须 要 共享 资源 。Agent 2 不 想 要 偏离 ， 因 为 那样 的 话 就 有 破坏 。 
。 第 二 个 均衡 中 ，Agent 1 MAS FARA, Agent 2 像 庆 那样 动作 。 
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。 第 三 个 均衡 中 ， 两 个 Agent 都 随机 地 动作 。 在 这 个 均衡 中 ， 有 一 些 破坏 的 玫 率 。 像 唐 
那样 动作 的 概率 随 着 资源 的 尺 值 上 升 ， 随 着 破坏 的 马 值 增加 而 下 降 。 参 看 习题 10. 1 。 

在 这 个 例子 中 ， 你 可 以 想象 每 个 Agent 装 腔 作 势 地 要 表示 它 将 会 做 什么 ， 以 此 试图 迫 
使 均衡 有 利于 它 。 < 

拥有 多 个 纳什 均衡 并 非 来 只 来 自 对 手 的 情况 ， 如 下 图 的 示例 所 示 。 

[B 10-12) 假设 有 两 个 想 在 一 起 的 人 。Agent 1 更 偏好 一 起 去 看 足球 比赛 ，Agent 2 
更 偏好 一 起 去 购物 。 如 果 他 们 不 在 一 起 的 话 他 俩 都 不 高 兴 。 假 设 他 俩 必须 要 同时 选择 做 什 
么 。 用 下 面 的 收益 矩阵 来 表示 : 


Agent 2 


足球 购物 
ee a t) 
we | oo | Le 


在 这 个 矩阵 中 ，Agent 1 选择 行 ，Agent 2 选择 列 。 

在 这 个 博弈 中 ， 有 三 个 纳什 均衡 。 一 个 均衡 是 他 们 都 去 购物 ， 一 个 是 他 们 都 去 看 足球 
比赛 ， 一 个 是 随机 策略 。 

这 是 一 个 协调 (coordination) 的 问题 。 知 道 了 均衡 集 并 不 能 确定 哪个 Agent 要 做 什么 ， 
因为 一 个 Agent 要 做 什么 取决 于 男 一 个 Agent 要 做 什么 。 在 这 个 例子 中 ， 你 可 以 想象 他 们 
决定 选择 哪个 均衡 的 谈 语 。 < 

即使 存在 一 个 唯一 的 纳什 均衡 ， 纳 什 均 衡 也 不 能 保证 给 每 个 Agent 的 最 大 收益 。 下 面 
的 例子 是 囚徒 困境 (prisoner’s dilemma) 的 另 一 种 形式 。 

【 例 10-13] 试想 一 下 ， 你 和 一 个 你 将 再 也 不 会 遇 到 的 陌生 人 共同 参加 一 个 电视 游戏 ， 
你 们 每 个 人 都 有 选择 

。 自己 拿 100 美 元 。 

。 给 男 一 个 人 1000 美元 。 

这 可 以 用 下 面 的 收益 矩阵 来 描述 ， 


Player 2 
= 给 


无 论 对 方 Agent 如 何 选择 ， 每 个 Agent 自身 选择 拿 钱 均 比 给 钱 更 好 。 然 而 ， 两 个 Agent 
都 给 钱 却 比 都 拿 钱 更 好 。 

因此 ， 当 两 个 Agent 都 选择 拿 钱 时 ， 有 一 个 唯一 的 纳什 均衡 。 这 个 策略 组 合 的 结果 是 每 
个 参赛 者 拿 到 100 美元 。 两 个 参赛 者 都 给 钱 的 策略 组 合 结果 是 每 个 参赛 者 拿 到 1 000 美元 。 
然而 ， 在 这 个 策略 组 合 中 ， 每 个 Agent 会 因为 偏离 而 获得 额外 回报 ($1100 一 1 000). < 

关于 囚徒 困境 有 很 多 研究 ， 因 为 看 上 去 贪 禁 不 太 合理 ， 其 中 的 每 个 Agent 为 了 自己 的 最 
大 利益 去 做 ,结果 导致 每 人 更 糟糕 。 当 博弈 进行 多 次 后 ，Agent 会 更 偏好 给 钱 ， 这 就 是 所 谓 
的 连续 囚徒 博弈 (sequential prisoner’s dilemma) 。 连 续 囚 徙 博弈 的 一 个 策略 是 针锋相对 (tit-for- 
tat) 策 略 : 每 个 参与 者 一 开始 采取 给 钱 ， 然 后 在 下 面 的 每 一 步 采取 另 一 个 Agent 先前 的 行为 。 
只 要 两 个 参与 者 都 不 知道 最 后 的 动作 ， 这 个 策略 就 是 一 个 纳什 均衡 (见习 题 10. 3). 
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不 仅仅 在 部 分 可 观察 的 博弈 中 有 多 个 纳什 的 衡 ， 基 至 在 一 个 完全 信息 博弈 中 也 可 能 有 
多 个 纳什 均衡 ， 有 时 甚至 是 无 数 个 纳什 均衡 ， 如 下 面 的 示例 所 示 。 

【 例 10-14) 考虑 例 10-2 的 共享 博弈。 在 这 个 博弈 中 有 无 数 个 纳什 均衡 。 有 一 组 均 
衡 ， 其 中 Andy 共享 Barb 在 中 心 节 点 对 于 共享 选择 “是 ”， 并 且 可 以 随机 地 做 其 李 选 择 ， 
只 要 对 向 左 选择 说 “是 ”的 概率 小 于 或 等 于 0.5。 在 这 些 纳什 均衡 中 ， 他 们 都 能 得 到 1。 有 
另 一 组 纳什 均衡 ，Andy (RM. Barb 随机 地 做 出 选择 ， 以 便 在 左 分 支 说 “是 ?的 概率 大 于 或 
等 于 0.5。 在 这 些 均衡 中 ，Barb 得 到 0, Andy 得 到 在 [1，2] 中 的 某 个 值 ， 这 取决 于 Barb 
的 概率 。 第 三 组 纳什 均衡 中 .Barb 在 最 左 节 点 选择 "是 ”的 概率 是 0.5， 在 中 心 节 点 选择 
“E”, m Andy 以 任何 概率 在 “keep”" 和 “share” 之 间 随 机 选择 。 

假设 稍微 修改 一 下 这 个 共享 博弈 ， 证 Andy 贿赂 Barb 让 他 说 “是 ”。 这 个 可 以 通过 将 
收益 2，0 变 为 1.9，0.1 做 到 。Andy 可 能 会 认为 :“ 如 果 在 0.1 和 0 之 间 选 择 ，Barb 会 选 
择 0.1， 所 以 我 应 该 保留 .” 但 是 Barb 可 能 想 :“ 我 应 该 对 0. 1 说 不 ， 这 样 Andy 会 共享 我 
能 得 到 1.? 在 这 个 例子 中 (甚至 忽略 最 右边 的 分 支 ) 有 多 个 纯 纳什 的 衡 ， 其 中 一 个 是 Andy 
保留 并 且 Barb 在 最 左 分 支 说 是 。 在 这 个 均衡 中 ，Andy 得 到 1.9，Barb 得 到 0.1. ZAA 
外 一 个 纳什 均衡 ，Barb 在 最 左 选择 节点 处 说 不 ， 并 且 在 中 心 分 支 处 说 是 ，Andy 选择 共 
享 。 在 这 个 均衡 中 ， 他 们 都 得 到 1。 这 似乎 是 对 Barb 有 利 。 但 是 ，Andy 可 能 认为 Barb 在 
做 一 个 空 的 威胁 。 实 际 上 如 果 他 选择 保留 ，Barb 为 了 最 大 化 她 的 效用 不 会 说 “不 ”。 < 

在 修改 后 的 共享 博弈 中 逆向 归纳 算法 只 能 找到 一 个 均衡 。 它 计算 出 了 一 个 子 博 弈 完美 
均衡 ， 它 假设 Agent 在 每 一 个 要 选择 的 节点 处 选择 对 它们 有 最 大 的 效用 的 动作 。 它 假设 
Agent 在 不 符合 它们 的 利益 的 时 候 不 进行 威胁 。 在 前 面 修改 后 的 共享 博弈 的 例子 中 ， 它 假 
设 Barb 对 那个 小 贿赂 说 “是 ”。 然 而 ， 在 与 真正 的 对 手 交 锋 的 时 候 ， 我 们 必须 要 注意 的 是 ， 
他 们 是 否 会 跟 进 我 们 可 能 认为 不 合理 的 威胁 。 


10. 4.1 纳什 均衡 计算 


想 要 为 一 个 策略 形式 的 博弈 计算 纳什 均衡 ， 需 以 下 三 个 步 又 : 

D 剔除 劣势 策略 ; 

2) 确定 哪些 动作 将 拥有 非 零 概率 ， 这 就 是 所 谓 的 支持 集 ; 

3) 确定 支持 集中 动作 的 概率 。 

事实 证 明 ， 第 二 步 是 最 难 的 。 

1. 剔除 劣势 策略 

对 于 其 他 Agent 的 每 一 个 行为 ， 如 果 Agent A Hs, 的 效用 比 Agent A Ms, 的 效用 高 ， 
W Agent A 的 策略 s, 就 占 优 于 策略 s; 。 被 另 一 个 策略 占 优 的 任何 纯 策 略 都 可 以 剔除 ， 不 
予 考 虑 。 占 优 的 策略 可 以 是 一 个 随机 的 策略 。 可 以 重复 进行 剿 除 。 

Cj 10-15) 考虑 下 面 的 收益 矩阵 ， 其 中 第 一 个 Agent 选择 行 ， 第 二 个 Agent 选择 列 。 
在 每 个 单元 格 里 是 一 个 收益 对 ; Agent 1 的 收益 和 Agent 2 的 收益 。Agent 1 有 动作 {ai， 
bis ci}. Agent 2 有 动作 {ds，es， fr}. 


Agent 1 
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(在 看 解决 方案 之 前 试 着 弄 清 每 个 Agent 应 该 做 什么 。) 

动作 a 可 以 删除 ， 因 为 它 被 动作 a AR: WRB a 可 以 做 ，Agent 1 永远 不 会 做 
ci。 你 可 以 看 到 无 论 另 一 个 Agent 做 什么 ，Agent 1 far 的 收益 比 做 c 的 收益 要 大 。 

一 旦 动作 c 被 剔除 ， 动 作 f 也 可 以 被 剔除 ， 因 为 它 被 随机 策略 0.5Xds 十 0.5Xe 占 优 。 

一 旦 a 和 fs BAR, b 被 a 占 优 ， 所 以 Agent 1 将 会 做 动作 ai。 由 于 Agent 1 要 做 
ai, Agent 2 要 做 a;。 因 此 ， 这 个 博 穿 中 Agent 1 的 收益 将 是 3, Agent 2 的 收益 将 是 De < 

如 果 对 于 其 他 Agent 的 所 有 动作 组 合 o» 

utility (sid: 51) > utility (seo; 42) 
ABA Agent i 的 策略 % PR AR (strictly dominate) FRI sx。 显而易见 的 是 ， 即 使 % 是 
一 个 随机 策略 ， 如 果 > 是 被 某 个 策略 严格 占 优 的 纯 策 略 ， 那 么 sz 永远 不 会 出 现在 任何 
纳什 均衡 的 支持 集中 。 重 复 剔 除 被 严格 占 优 的 策略 具有 相同 的 结果 ， 在 操作 中 不 必 考 虑 剔 
除 的 次 序 。 

也 有 ”“ 弱 占 优 2 的 概念 ， 即 在 上 述 公 式 中 的 大 于 号 被 替换 成 大 于 或 等 于 。 如 果 利 用 弱 古 
优 概 念 ， 则 总 存在 一 个 由 非 占 优 策略 支持 的 纳什 均衡 。 然 而 ， 一 些 纳什 均衡 可 能 会 丢失 。 
此 外 ， 哪 些 均 衡 会 丢失 取决 于 剔除 劣势 策略 的 顺序 。 

2. 计算 随机 策略 

我 们 可 以 利用 这 样 一 个 事实 ， 如 果 所 有 的 动作 对 Agent 有 相同 的 效用 (给 定 另 一 个 
Agent 的 策略 )， 则 该 Agent 只 能 在 动作 中 随机 选择 。 这 形成 了 一 组 约束 ， 通过 解约 束 来 得 
到 一 个 纳什 均衡 。 如 果 这 些 约束 可 以 用 (0，1) 范 围 中 的 数字 来 解决 ， 并 且 为 每 个 Agent 所 
计算 的 混合 策略 不 会 被 Agent 的 另 一 个 策略 所 占 优 ， 那 么 这 个 策略 组 合 是 一 个 纳什 均衡 。 

回顾 一 个 支持 集 是 这 样 一 个 纯 策 略 集 ， 即 在 纳什 均衡 中 每 个 策略 都 有 非 零 的 概率 。 

一 旦 劣势 策略 被 噜 除 ， 我 们 可 以 搜索 支持 集 来 决定 支持 集 是 否 将 形成 一 个 纳什 均衡 。 
注意 ， 如 果 一 个 Agent 有 个 可 采取 的 动作 ， 那 么 就 有 2 一 1 个 非 空子 集 ， 并 且 我 们 必须 
搜索 不 同 Agent 的 支持 集 的 组 合 。 因 此 ， 除 非 没 有 非 劣 势 动 作 或 者 有 较 小 支持 集 的 纳什 均 
衡 ， 这 是 不 可 行 的 。 为 了 找到 简单 的 (在 支持 集中 动作 的 数量 方面 ) 均 衡 ， 我 们 可 以 从 小 到 
大 搜索 支持 集 。 

假设 Agent i 在 一 个 纳什 均衡 中 的 动作 a} e at 中 随机 选择 。p! 是 Agent i 做 动作 
ai 的 概率 。c_;( 力 -,) 是 其 他 Agent 的 概率 函数 形式 的 策略 。 事 实 上 ， 一 个 纳什 均衡 具有 以 


FAR: p> 0, pi = 1， 并 且 对 于 所 有 的 j， j! 

utility Calo th DD = wility (ai olp) i) 

我 们 还 可 以 要 求 做 动作 的 效用 不 小 于 支持 集 外 的 动作 的 效用 。 因 此 ， 对 于 所 有 的 a' G 
{a} 和 ai}, 

utility (aig; (p<) D > utility la'o (psi) 

CH 10-16) 在 例 10-9 中 ， 假 设 守门 员 以 p; 的 概率 向 右 跳 并 且 射 门 者 以 加 的 概率 向 
Aid 
WRT TR ABE, HEERKE 
0. 9p, + 0.201 — py) ‘ 
如 果 守 门 员 向 堪 跳 ， 进 球 的 概率 是 
0. 3p, + 0.6 — p) 


唯一 的 一 次 守门 员 可 以 随机 选择 的 情况 是 以 上 两 者 相等 ， 即 如 果 
0. 9p, + 0.201 — py) = 0. 3p, + 0.601 — py) 
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求解 Pr 得 pr. =0. 4, 

相似 的 ， 如 果 射 门 者 随机 选择 ， 无 论 射门 者 往 左 踊 还 是 往 右 踢 ， 进 球 的 概率 肯定 是 一 
样 的 : 

0. 2p; +0. 601 — p) = 0. 9p; +0. 301 — p;) 

求解 p; 得 pj; 二 0. 3. a 

因此 ， 唯 一 的 纳什 均衡 是 p= 0.4. p50. 3。 


10. 4.2 学 习 协 调 


由 于 存在 多 个 均衡 ， 在 许多 情况 下 ， 妈 使 它 知道 这 个 博弈 的 所 有 后 果 和 Agent 的 效 
Fl. 一 个 Agent 实际 上 并 不 明确 应 该 做 什么 。 然 而 ， 大 多 数 实际 的 策略 相遇 更 难 ， 因 为 
Agent 不 知道 后 果 以 及 其 他 Agent 的 效用 。 

另 一 种 由 计算 纳什 均衡 所 隐 含 的 深层 次 策略 性 推理 的 方法 是 尝试 学 习 执行 什么 样 的 动 
作 。 这 和 第 7 章 的 学 习 的 标准 设 定 是 完全 不 同 的 ， 标准 设 定 中 Agent 了 解 学 习 的 是 一 些 未 
知 但 是 固定 的 概念 ; 在 这 里 ， 一 个 Agent 学 习 与 其 他 正在 学 习 中 的 Agent 交互 。 

本 节 给 出 了 一 个 简单 的 算法 ,可 以 用 来 逐步 提高 一 个 Agent 的 策略 。 我 们 假设 ，Agent 
反复 地 玩 同一 个 博弈 并 且 根 据 它 们 做 得 怎么 样 来 学 习 做 什么 。 我 们 假设 每 个 Agent 总 是 用 
一 个 混合 策略 来 比赛 ; Agent 根据 收 到 的 收益 来 更 新 动作 的 概率 。 为 了 简单 起 见 ， 我 们 假 
设 一 个 单一 的 状态 ; 每 次 改变 的 只 有 其 他 Agent 的 随机 策略 。 

图 10-9 的 PolicyImprovement 算法 给 学 NE ELS leh 


J Agent 提供 了 一 个 控制 器 。 数 组 P 中 存放 2; Inputs 


着 它 的 当前 随机 策略 ， 数 组 Q 中 存放 着 每 个 pb eo 
动作 的 估计 收益 。Agent 根据 它 的 当前 策略 来 a 概率 变化 的 步 长 
采取 动作 ， 并 观察 动作 的 收益 。 然 后 它 更 新 它 : oo ~ 

的 动作 值 的 估计 ， 并 且 通 过 增加 它 的 最 好 动作 |?” 。 亿 敬 ， 和 于 的 要 时 分 布 
的 概率 来 改变 它 的 现 有 策略 。 QUA]: 热 行走 的 估计 值 


在 这 个 算法 中 ，n 是 动作 的 数目 (A 中 元 : ”a_best; 当前 最 好 的 动作 


n= |A| 
P[L4] 随 机 赋值 , Pla] > 0 A> Pla] =æ] 


素 的 数目 ) 。 首 先 ， 随 机 初始 化 P， 使 卫 是 一 
个 概率 分 布 ; Q 被 任意 初始 化 为 0。 


在 每 个 阶段 ，Agent 根据 当前 的 分 布 P Q[aJ<-0， 对 每 一 个 a€ 有 A 





z repeat 
选择 一 个 动作 a。 执 行 a 并 且 观 察 它 收 到 的 收 : select 动作 a 基于 分 布 P 
益 。 然 后 它 更 新 a 的 估计 收益 。 它 以 学 习 速 率 Bet 
: yof f 
a 进行 梯度 下 降 ， 以 尽量 减少 动作 a 的 估计 收 :  QLal+Qla]+a(payeff—la)) 
益 的 误差 。 如 果 收 益 超 过 了 它 先 前 的 估计 ， 就 : oe te Eee 
与 误差 成 比例 地 增加 估计 。 如 果 收 益 低 于 它 的 Aa owe 
估计 ， 就 减少 它 的 估计 。 Pla’ }=-Pla'}—8 
然后 根据 它 估计 的 Q 值 ， 计 算出 一 个 目 : pE t EE 
前 最 佳 的 动作 a_best。( 假 设 ， 如 果 有 一 个 以 P[a"}=-0 
上 的 最 佳 动作 ， 可 以 将 任意 一 个 作为 a_besta) : until tb 


它 通过 (#z 一 1)8 来 增加 最 佳 动作 的 概率 ， 通 过 有 图 10-9 ”学习 协调 算法 
来 减少 其 他 动作 的 概率 。 第 23 行 上 的 if 条 件 是 用 来 保证 概率 都 是 非 负 的 ， 并 且 总 和 为 1。 
即使 P 的 某 个 动作 概率 为 0， 也 可 以 偶尔 用 它 来 更 新 当前 值 。 在 下 面 的 例子 中 ,我们 
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假设 Agent 每 一 步 以 概率 0.05 选择 一 个 随机 动作 ， 和 否则 根据 P 中 的 动作 的 概率 来 选择 每 
个 动作 。 
本 书 的 网 站 中 有 一 个 开放 源 代码 的 Java 小 程序 ， 实 现 了 学 习 控制 器 。 


【 例 10-17】 图 10-10 显示 了 例 10-12 的 学 习 算 : 

法 的 一 个 情境 。 这 个 图 给 出 运行 了 7 次 学 习 算法 的 ”0 | 
Agent 1 选择 足球 和 Agent 2 选择 购物 的 相对 概率 。 x? eee eel 
每 一 条 线 是 一 次 运行 。 每 次 运行 在 左上 角 或 右 下 角 - | | 1 "IAT 
结束 。 在 这 些 运行 中 ， 策 略 是 随机 初始 化 的 ， “= OS EA 

0.1, 6=0.01, < 

如 果 其 他 的 Agent 采用 一 个 固定 的 策略 (即使 
该 策略 是 一 个 随机 策略 ) ， 这 个 算法 也 将 收敛 到 一 个 
最 佳 应 对 (只 要 a 和 6 足够 小 ， 并且 Agent 偶尔 随机 
尝试 所 有 的 动作 ) 。 
i Owls es ee 

如 果 在 纯 策略 里 有 唯一 的 纳什 均衡 ， 并 且 所 有 的 ”图 10.10 足球 购物 的 学 习 协调 的 例 了 
Agent 使 用 这 个 算法 ,它们 将 会 收敛 到 这 个 均衡 。 劣 势 策 略 会 将 其 概率 设 为 零 。 在 例 10-15 
中 ,存在 纳什 均衡 。 同 样 ， 对 于 例 10-13 中 的 囚徒 困境 ， 它 将 会 收敛 于 两 个 Agent 都 采取 
“zake” 行 为 的 唯一 均衡 。 因 此 ， 这 个 算法 没有 学 习 合 作 (cooperate)， 办 徒 困境 里 合作 的 
Agent 两 方 都 会 采取 “give” 动 作 以 使 它们 的 收益 最 大 化 。 

如 果 有 多 个 纯 均 衡 ， 这 个 算法 将 收敛 到 其 中 的 一 个 。 因 此 Agent 要 学 习 协 调 (coordi- 
nate) 。 在 例 10-12 足球 赛 - 购 物 博弈 中 ， 它 将 会 收敛 到 两 个 都 去 购物 或 者 两 个 都 看 去 足球 
赛 中 的 一 个 均衡 。 收 全 到 哪 一 个 取决 于 初始 策略 。 

如 果 只 有 一 个 随机 的 均衡 ， 如 例 10-9 罚 点 球 的 例子 ， 这 个 算法 往往 在 均衡 之 间 循 环 。 

【 例 10-18] 图 10-11 显示 了 两 个 参赛 者 对 LO 
例 10-9 使 用 学 习 算法 的 情况 。 此 图 描绘 了 运行 一 次 oo 
学 习 算法 中 守门 员 向 右 跳 和 射门 者 向 左 踢 的 相对 概 kranni 
率 。 在 这 次 运行 中 ， a 二 0.1，6 一 0.001。 学 习 算法 Žie 
在 均衡 之 间 循 环 ， 但 从 来 没有 真正 达到 均衡 。 ”< Roe a Oe ae ad 

考虑 2-Agent 竞争 性 博 蛮 ， 其 中 只 有 一 个 随机 Ros tt | | LA Als 
的 纳什 均衡 。 如 果 Agent A 正在 和 另 一 个 Agent B R03 
比赛 ， 其 中 有 一 个 纳什 均衡 ，Agent A 执行 它 的 支 oz 
持 集中 的 哪个 行为 都 可 以 ; 因为 它们 对 A 有 相同 OTN 
值 。 因此 ， Agent A 往往 会 偏离 均衡 。 需要 注意 的 0 0.1 0.2 03 0.4 0.5 0.6 0.7 0.8 0.9 1.0 
是 ， 当 A 偏离 均衡 策略 时 ， 对 Agent B 来 说 最 好 ST 
的 回应 是 确定 性 地 比赛 。 当 Agent B 最 终 使 用 这 个 图 01911 RTL RET 
算法 时 ， 注 意 到 A 已 经 偏离 均衡 且 Agent B 改变 它 的 策略 。Agent B 也 将 要 偏离 这 个 均 
衡 。 然 后 Agent A 能 尝试 利用 这 个 偏差 。 当 它们 都 用 这 个 控制 器 时 ， 每 个 Agent 的 偏差 都 
可 以 被 利用 ， 而 且 它们 接近 于 循环 。 

这 个 算法 不 能 使 Agent 处 于 一 个 随机 的 均衡 。 不 让 Agent 偏离 均衡 太 远 的 一 个 方法 是 
采用 赢 或 快速 学 习 (win or learn fast，WoLF) 策 略 : “4 Agent 赢 的 时 候 ， 它 采取 小 的 步 又 
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(6 是 小 的 ); 当 Agent 输 的 时 候 ， 它 采取 较 大 的 步骤 (9 是 增加 的 )。 当 它 赢 的 时 候 ， 它 趋 
向 于 保持 相同 的 策略 ， 当 它 输 的 时 候 ， 它 会 尝试 迅速 采取 行动 以 达到 一 个 更 好 的 策略 。 为 
了 定义 胜利 ， 对 于 Agent 来 说 一 个 简单 的 策略 是 看 它 是 否 比 迄 今 为 止 它 收 到 的 平均 收益 
更 好 。 [ 

要 注意 的 是 ， 没 有 完美 的 学 习 策 略 。 如 果 对 方 Agent 知道 Agent A 正在 使 用 的 准确 策略 
《无 论 是 不 是 学 习 的 )， 并 且 可 以 预测 Agent A 将 要 做 什么 ， 那么 它 就 可 以 利用 这 些 知 识 。 


10.5 群体 决策 


通常 情况 下 ,群体 的 人 必须 决定 该 群体 将 做 什么 。 社 团 是 典型 的 例子 ， 投 票 就 是 用 来 
确定 群体 想 要 什么 。 看 起 来 投票 是 一 个 决定 一 个 群体 想 要 什么 的 很 好 的 方式 ， 并 且 当 有 一 
个 明确 的 最 优先 选择 时 ， 它 就 是 一 个 好 的 方式 。 然 而 ， 当 没有 一 个 明确 的 优先 选择 时 ， 投 
票 有 很 多 关键 问题 ， 如 下 面 的 例子 所 示 。 

【 例 10-199 考虑 一 个 采购 Agent 必须 要 为 一 群 人 根据 他 们 的 偏好 来 决定 一 个 度假 目 
的 地 。 假 设 有 三 个 人 ， Alice, Bob 和 Cory, =A MH, X.Y MZ. 假设 Agent 有 以 下 
偏好 ， 三 意思 为 严格 地 偏好 : 

e Alice; X>Y>Z, 

* Bob: Y>Z>X. 

+ Cory: Z>X>Y. 

给 定 这 些 偏 好 ， 在 一 个 投票 对 中 ，X>Y 是 因为 在 三 人 中 的 两 个 人 更 偏好 和 X。 同 样 ， 
在 投票 中 ，Y>Z 并 且 Z>X。 因 此 ,通过 投票 得 到 的 偏好 是 不 可 传递 的 。 这 个 例子 被 称 为 
孔 多 赛 悖 论 (Condorcet paradox) 。 事 实 上 ， 在 这 种 情况 下 并 不 明确 群体 的 结果 是 什么 ， 因 
为 它 在 结果 之 间 是 对 称 的 。 a 

社会 偏好 函数 (social preference function) 为 一 个 群体 给 出 了 一 个 偏好 关系 。 我 们 希望 
社会 偏好 函数 依赖 于 群体 中 的 个 人 偏好 。 和 孔 多 赛 悖 论 看 起 来 似乎 是 一 个 投票 对 的 问题 ; 但 
是 ， 下面 的 结果 表明 这 种 悖 论 随 着 任何 社会 偏好 函数 发 生 。 

命题 10. 1( 阿 罗 不 可 能 定理 ) 如 果 有 三 个 或 者 更 多 的 结果 ， 任 何 社会 偏好 函数 不 能 同 
时 具有 以 下 性 质 ， 

。 社会 偏好 函数 是 完备 的 并 且 且 传递 的 。 

。 允许 个 人 具有 完备 可 传递 的 偏好 。 

。 如 果 在 个 人 偏好 中 有 0 二 oa， 那么 在 群体 偏好 中 有 .ot 二 oz 。 

。 在 结果 四 -和 oz 中 ， 群 体 偏好 仅仅 取决 于 个 人 对 0 和 oz 的 偏好 ， 而 不 取决 于 个 人 

对 其 他 结果 的 偏好 。 

。 没有 个 人 可 以 单方 面 决定 结果 ( 非 独 裁 性 )。 

当 构 建 一 个 Agent 拥有 个 人 偏好 并 且 给 出 社会 偏好 ， 我 们 必须 要 清楚 我 们 不 可 能 拥有 
所 有 直观 的 和 理想 的 特性 。 与 其 给 出 一 个 具有 不 理想 性 质 的 群体 偏好 ， 还 不 如 指出 个 体 偏 
好 间 是 如 何不 可 调和 的 。 


10.6 机 制 设计 


前 面 的 Agent 选择 动作 的 讨论 中 ， 假 设 每 个 Agent 都 要 一 个 预定 义 的 博弈 。 机 制 设 计 
的 问题 是 设计 一 个 博弈 ， 对 于 不 同 的 Agent 有 理想 的 特性 。 
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一 个 机 制 (mechanism) 指 定 了 每 个 Agent 可 行 的 动作 和 每 个 动作 组 合 的 结果 分 布 。 我 
们 假设 Agent 在 结果 上 具有 效用 。 

一 个 机 制 应 具有 下 面 两 个 常见 的 理想 性 质 : 

。 Agent 应 该 很 容易 使 用 机 制 。 给 定 Agent 的 效用 ， 对 Agent 来 说 应 该 很 容易 决定 

做 什么 。 无 论 其 他 Agent 做 什么 ， 一 个 占 优 策略 (dorminant strategy) 对 Agent 来 
说 是 最 好 的 策略 。 如 果 Agent 有 一 个 占 优 策 略 ， 不 需要 上 一 节 中 的 复杂 策略 推理 ， 
它 就 能 做 最 好 的 动作 。 如 果 每 个 Agent 都 有 一 个 占 优 策略 ， 并 且 在 占 优 策略 中 Agent 
最 好 的 策略 就 是 声明 它 的 真实 偏好 ， 那 这 个 机 人 制 就 是 真正 的 truthful) 占 优 策略 。 
在 一 个 真正 的 占 优 机 制 中 ，Agent 内需 简 单 地 声明 它 的 真实 偏好 ; Agent 不 可 能 
通过 操纵 机 制 而 得 到 自己 的 更 好 收益 。 

。 一 个 机 制 应 该 给 出 聚集 了 所 有 Agent 的 最 好 结果 。 例 如 ， 如 果 选 择 的 结果 能 最 大 

化 所 有 Agent 效用 的 总 和 ， 那 这 个 机 制 在 经 济 上 就 是 有 效 的 。 

【 例 10-20) 假设 你 想 设计 一 个 会 议 调度 程序 ， 用 户 输入 他 们 空闲 的 时 间 ， 调度 程序 
选择 一 个 开会 的 时 间 。 第 一 种 机 制 是 用 户 指定 他 们 是 否 空闲 的 时 间 ， 并 且 调 度 程序 选择 大 
多 数 人 都 空闲 的 时 间 。 第 二 种 机 制 是 用 户 指定 他 们 不 同时 间 的 效用 ， 并 且 调 度 程序 选择 效 
用 总 和 最 大 化 的 时 间 。 这 些 机 制 都 不 是 真实 的 占 优 策略 。 

对 于 第 一 种 机 制 ， 用 户 可 以 声明 他 们 某 些 时 间 是 不 可 行 的 上 且 不 能 强制 一 个 他 们 更 偏好 
的 时 间 。 我 们 并 不 清楚 ， 一 个 确定 的 空闲 时 间 是 否 是 预先 定义 好 的 ; 在 某 个 阶段 ， 用 户 必 
须 决定 他 们 是 否 很 容易 重新 安排 在 一 些 特定 时 间 要 做 的 其 他 事情 。 不 同 的 人 更 改 为 其 他 活 
ah AE WY AE A AS JE] BY BEL 

对 于 第 二 种 机 制 ， 假 设 有 三 个 人 ，Alice、Bob 和 Cory， 并 且 他 们 必须 决定 是 否 在 周 
一 、 周 二 , 或 者 周三 开会 。 假 设 对 于 开会 日 期 他 们 有 以 下 的 效用 : 





经 济 有 效 的 结果 是 在 周二 开会 。 然 而 ， 如 果 Alice 要 把 周二 的 评估 改 成 2， 这 个 机 制 
将 会 选择 周三 。 因 此 ，Alice 有 动机 去 谎报 她 的 值 。 诚 实 不 符合 Alice 的 利益 。 a 

需要 注意 的 是 ， 如 果 有 一 个 机 制 ， 它 有 占 优 策略 ， 那 就 有 一 个 机 制 ， 它 是 真正 占 优 策 
略 。 这 就 是 所 谓 的 启示 原理 (revelation principle) 。 要 实现 一 个 真正 的 占 优 策略 机 制 ， 我 们 
原则 上 可 以 写 一 个 程序 接受 来 自 Agent 的 真正 偏好 ， 并且 为 这 个 Agent 的 原始 机 制 提 供 最 
优 输入 。 从 本 质 上 讲 ， 这 个 程序 可 以 最 好 地 为 Agent 说 谎 。 

事实 证 明 ， 设计 一 个 合理 的 占 优 策略 机 制 是 不 现实 的 。 只 要 有 三 个 或 者 更 多 的 可 以 选 
择 的 结果 ， 唯 一 占 优 策略 的 机 制 有 一 个 独裁 者 (dictator): 有 一 个 Agent， 它 的 偏好 决定 结 
果 。 这 就 是 Gibbard-Satterthwaite 定理 。 

获得 真正 占 优 策略 机 制 的 一 个 方法 是 引入 货币 。 假 设 货币 可 以 添加 到 效用 ， 对 于 任何 
两 个 结果 o 和 o 来 说 ， 每 个 Agent 都 有 一 定 的 (可 能 是 负 的 ) 数 d, AFEA Agent 对 结果 
o Alo, +d GH. WMA Agent 一 个 报酬 使 其 接受 一 个 它们 不 喜欢 的 结果 ， 或 者 支付 报 
酬 来 得 到 一 个 它们 想 要 的 结果 ， 我 们 可 以 保证 Agent 不 会 通过 说 谎 来 获 益 。 

在 VCG 机 制 (VCG mechanism) a # Vickrey-Clarke-Groves 机 制 中 ，Agent 要 声明 每 
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个 结果 的 值 。 我 们 可 以 选择 值 的 总 和 最 大 的 结果 。Agent 根据 它们 的 参与 影响 结果 的 多 少 
来 支付 。Agent i 的 支付 为 ， 其 他 Agent 选择 的 结果 的 值 的 总 和 减 去 Agent i 没有 参与 的 
其 他 Agent 的 值 的 总 和 。 假 设 Agent 只 关心 它们 的 效用 ,不 关心 其 他 Agent 的 效用 或 者 
其 他 Agent 的 支付 ， 这 个 VCG 机 制 是 经 济 高 效 的 并 且 是 真正 占 优 策略 。 

【 例 10-21] 考虑 例 10-20 中 的 值 。 假 设 给 定 的 值 可 以 被 解释 为 美元 ; 例如 ，Alice 对 
于 在 周一 还 是 周二 开会 并 支付 8 美元 并 不 关心 (她 准备 支付 7. 99 美元 而 不 是 8. 01 美元 来 
把 开会 从 周一 移 到 周二 ) 。 给 定 了 这 些 声明 的 值 ， 周 二 被 选择 作为 会 议 上 日 。 如 果 Alice 没有 
参加 ， 周 一 将 会 被 选中 ， 并 且 其 他 的 Agent 有 3 美元 的 净 亏 损 ， 所 以 Alice 必须 要 支付 3 
美元 。 然 后 她 的 净值 为 5 美元 ， 即 周二 的 效用 8 美元 减 去 支付 的 3 美元 。 下 表 中 给 出 声 
明 、 支 付 和 净值 ， 





如 果 Alice 改变 她 对 周三 的 评估 为 2 美元 ， 考 虑 下 将 会 发 生 什么 。 在 这 种 情况 下 ， 周 三 将 会 
被 选择 作为 会 议 日 ， 但 是 Alice 将 有 一 个 新 的 2 美元 值 ， 却 必须 支付 8 美元 (14 一 6 一 一 译 者 
注 )， 所 以 状况 将 进一步 恶化 。Alice 不 可 以 通过 对 机 制 说 谎 来 获 益 。 < 

出 售 一 个 物品 或 者 一 批 物 品 的 一 个 常见 机 制 是 拍卖 (auction)。 出 售 单一 物品 的 常见 拍 
卖 类 型 是 一 个 加 价 拍卖 。 当 以 前 的 报价 达到 时 ， 通 过 一 个 预定 的 增 量 来 不 断 增 加 ， 就 有 这 
个 项 目的 一 个 当前 报价 。 以 当前 价格 提出 购买 这 个 物品 被 称 为 出 价 。 对 一 个 特定 的 价格 只 
有 一 个 人 可 以 竞标 。 出 价 最 高 并 且 支付 相应 金额 的 人 将 获得 该 物品 。 

考虑 出 售 单一 物品 的 VCG 机 制 。 假 设 有 一 些 Agent， 他 们 每 人 以 自己 对 该 物品 的 佑 
价 来 出 价 。 最 大 化 收益 的 结果 是 这 个 物品 给 出 价 最 高 的 人 。 如 果 他 们 没有 参加 ， 该 物品 将 
给 第 二 高 的 投标 人 。 因 此 ,根据 VCG 机 制 ， 最 高 的 投标 人 应 得 到 这 个 项 目 并 且 支 付 第 二 
高 的 出 价 ， 这 就 是 第 二 价格 拍卖 (second-price auction)。 第 二 价格 拍卖 等 价 于 (招标 增 量 ) 
有 一 个 加 价 拍卖 ， 其 中 人 们 使 用 一 个 代理 出 价 ， 并 有 一 个 Agent 来 把 代理 出 价 转换 为 真正 
的 出 价 。 第 二 出 价 拍卖 中 竞价 非常 简单 ， 因 为 Agent 不 必 做 复杂 的 策略 推理 。 确 定 一 个 胜 
者 及 合理 的 支付 也 很 容易 。 


10.7 本章 小 结 


。 一 个 多 Agent 系统 是 由 多 个 可 以 自主 行动 并 且 对 结果 有 他 们 自身 效用 的 Agent 组 成 。 结 果 取 决 于 
所 有 Agent 的 行动 。Agent 可 以 竞争 、 合 作 、 协 调 、 通 信和 和 协商。 

> 博弈 的 策略 性 形式 指出 了 每 个 Agent 给 定 的 控制 器 的 预期 结果 。 

。 对 于 博弈 树 来 说 ， 博 弈 的 扩展 形式 通过 时 间 模 型 化 了 Agent 的 动作 和 信息 。 

一 个 多 Agent 决策 网 络 模型 化 了 福 率 的 依赖 性 和 信息 可 用 性 。 

完备 信息 博弈 可 以 通过 回溯 博弈 树 中 的 值 ， 或 者 使 用 极 大 极 小 <8 WR RE BRIER. 

在 部 分 可 观察 的 领域 ， 有 时 随机 动作 是 最 好 的 。 

。 纳什 均衡 对 每 一 个 Agent 是 一 个 策略 组 人 台 , 在 该 均衡 中 没有 Agent 可 以 通过 单方 面 偏离 这 个 组 合 

来 增加 它 的 效用 。 

Agent 可 以 通过 重复 博弈 学 习 协 调 ， 但 是 学 习 一 个 随机 策略 是 很 困难 的 。 
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+ 通过 引入 支付 ， 可 以 设计 一 种 机 制 实现 经 济 有 效 的 真正 的 占 优 策略 。 
10.8 参考 文献 及 进一步 阅读 


对 于 多 Agent 系统 的 概述 ， 请 参阅 Shoham 和 Leyton-Brown[ 2008]，Stone 和 Veloso[ 2000], Wool- 
dridge[2002] 和 Weissl1999], Nisan, Roughgarden, Tardos 和 Vazirani[2007] 概 述 了 算法 博弈 论 的 当前 
研究 前 沿 。 

多 Agent 决策 网 络 基 于 Koller 和 Mileh[2003] 的 MAIDs。 

RAN ap Be Hart 和 Edwards[1961] 首 次 发 布 。Knuth 和 Moore[1975] 和 Pearl 1984 |4> oF T e80 
枝 和 其 他 搜索 博弈 树 的 方法 。Ballard[1983] 讨 论 了 极 大 极 小 是 如 何 与 机 会 节点 结合 的 。 

深蓝 国际 象棋 由 Campbell, Hoane Jr. 和 HseL2002] 所 描述 。 

博弈 的 学 习 和 WoLF 策略 基于 Bowling 和 Veloso[2002]. 

机 制 设计 由 Shoham 和 Leyton-Brown[2008], Nisan[ 2007 ] Al #k WA BS MBAS, MW Mas-Colell, 
Whinston 和 GreenL1995] 所 描述 。Ordeshook[1986] 对 群体 决策 和 博弈 论 有 很 好 的 描述 。 


10.9 习题 


10.1 对 于 例 10-11 的 记 - 铅 博弈 ， 当 D>0 H R>0 时 ， 每 个 Agent 试图 最 大 化 它 的 效用 。 存 在 一 个 随 
机 策略 的 纳什 均衡 吗 ?” 概 率 是 多 少 ? 每 个 Agen 的 预期 收益 是 多 少 ? (这 些 应 该 表示 为 RR 和 DD 的 
函数 )。 写 出 你 的 计算 。 

10.2 在 例 10-12 中 ,什么 是 随机 策略 的 纳什 均衡 ? 在 这 个 均衡 中 ， 对 于 每 个 Agent 来 说 期 望 值 是 多 少 ? 

10.3 在 连续 的 囚徒 困境 中 ， 假 设 有 一 个 折 打 系数 7， 这 意味 着 在 每 个 阶段 停止 的 概率 是 Y。 对 于 7 的 所 
有 什 ， 针 和 锋 相 对 是 一 个 纳什 均衡 吗 ? 如 果 是 ,证明 它 。 如 果 不 是 ， 那 7 的 哪些 值 是 纳什 均衡 ? 
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有 监督 之 外 的 其 他 学 习 模 型 





学 而 不 思 则 周 ; 思 而 不 学 则 歼 。 
一 一 筷子 (公元 前 551 一 前 479), 《论语 


第 7 章 介绍 了 有 监督 学 习 ， 本 章 介绍 其 他 的 一 些 学 习 模 型 ， 包 括 学 习 更 为 丰富 的 表示 
形式 和 学 习 如 何 行动 等 问题 ， 这 使 得 学 习 能 够 和 推理 结合 在 一 起 。 首 先 介绍 无 监督 学 习 ， 
其 中 训练 数据 没有 给 定 类 别 信息 。 然 后 介绍 信念 网 络 学 习 ， 无 监督 学 习 是 信念 网 络 学 习 的 
一 种 特殊 情形 。 最 后 介绍 增强 学 习 ， 其 中 的 Agent 在 与 环境 交互 的 同时 学 习 如 何 行动 。 


11.1 Fe 


第 7 介绍 了 有 监督 学 习 ， 其 中 依据 输入 特征 预测 的 目标 特征 在 训练 数据 中 是 存在 的 。 
在 聚 类 (clustering) 或 无 监督 学 习 (unsupervised learning) 中 ， 训 练 数 据 没 有 给 定 目 标 特征 ， 
目标 是 构建 一 个 自然 的 可 用 于 聚集 数据 的 分 类 。 

聚 类 的 基本 思想 是 将 样本 集 划 分 成 簇 (cluster) 或 类 (unsupervised learning), #2 fil 
测 在 该 类 内 的 样本 的 特征 值 。 每 个 聚 类 都 有 一 个 预测 误差 ， 最 小 化 误差 的 那个 聚 类 是 最 
优 的 。 

【 例 11-1] 诊断 动手 可 能 想 将 不 同 的 疗法 进行 分 组 ， 使 得 相同 组 内 的 疗法 具有 令 人 满 
意 或 不 满意 的 治疗 效果 。 诊 断 助手 可 能 不 会 为 病人 提供 这 样 一 种 药物 : 与 之 相似 的 药物 已 
经 对 类 似 的 病人 造成 了 可 怕 的 后 果 。 

一 个 智能 教学 系统 可 能 想 根据 学 习习 惯 将 学 生 进行 聚 类 ， 使 得 对 某 个 成 员 有 效 的 教学 
策略 也 适用 于 同类 内 的 其 他 成 员 。 4 

在 硬 聚 类 (hard clustering) 中 ， 每 个 样本 是 明白 无 误 地 属于 某 个 类 。 该 类 可 用 于 预测 
样本 的 特征 值 。 另 一 种 方法 是 软 聚 类 (soft clustering)， 其 中 每 个 样本 在 它 属 于 的 类 上 存在 
一 个 概率 分 布 。 样 本 特征 的 预测 值 是 该 样本 所 属 类 的 预测 的 加 权 平 均值 ， 权 值 是 样本 属于 
某 类 的 概率 。 


11.1.1 期 望 最 大 化 


期 望 最 大 化 (Expectation Maximization，EM) 算 法 可 用 于 聚 类 。 对 于 给 定 的 数据 ， 
EM 学 习 这 样 一 个 原理 : 它 说 明 如 何 分 类 每 个 样本 和 预测 每 个 类 的 特征 值 。 其 基本 思想 
是 : 从 随机 理论 或 随机 已 分 类 的 数据 出 发 ， 重 复 下 面 的 两 个 步骤 直至 收敛: 

E: 使 用 现 有 的 理论 分 类 数据 。 

M: 使 用 现 有 的 数据 分 类 生成 最 优 的 理论 。 

E 步骤 为 每 个 样本 生成 期 望 的 分 类 。M 步骤 在 给 定 已 分 类 的 数据 的 前 提 下 生成 最 可 能 
的 理论 ， 它 是 一 个 监督 学 习 问 题 。 作 为 一 个 迭代 算法 ， 它 可 能 陷 人 局 部 最 优 ; 不 同 的 初始 
值 会 影响 找到 的 最 终 理论 。 

下 面 两 节 介 绍 EM 算法 的 两 个 实例 。 


FILE 有 监督 之 外 的 其 他 学 习 模 型 ”299 


11.1.2 kk- 均 值 


k- 均 值 算法 (4-means algorithm) 用 于 硬 聚 类 。 该 算法 的 输入 是 训练 样本 和 类 别 的 数目 
k&， 输 出 是 个 类 的 集合 、 每 个 类 各 个 特征 的 预测 值 和 样本 与 类 别 的 对 应 关系 。 

&- 均 值 算法 假定 特征 均 为 数值 型 ， 目 标 是 当 样本 的 预测 值 源 于 样本 所 属 的 类 别 时 ， 找 
到 最 小 化 平方 和 误差 的 类 别 划 分 。 


假定 王 是 样本 的 集合 ， 输 入 特征 为 Xi ，…，X,。wal(e，X;) 是 输入 特征 X; 在 样本 e 
上 的 值 。 我 们 将 为 每 个 类 分 别 关联 一 个 整数 i€ (1, sh} 
-均值 算法 的 输出 是 : 


。 函数 class; EE 一 {1，…，k}。 这 意味 着 class(Ce) 是 样本 e 所 属 的 类 别 。 如 果 
class(e)=i, P e 属于 类 别 ;。 

。 函数 pval。 对 于 类 别 i€ (1, =, RI MIE X;，pval(i，X;) 表 示 类 别 i 中 的 每 一 
个 样本 在 特征 X, 上 的 预测 值 。 

给 定 class 函数 和 pval BM. 平方 和 误差 是 : 


S) D Cowal (class le), X,) — val (e,X,))* 
EE j=l 


我 们 的 目标 就 是 找 出 最 小 化 平方 和 误差 的 class 函数 和 pval 函数 。 

如 命题 7. 1 所 示 ， 为 了 最 小 化 平方 和 误差 .一 个 类 的 预测 值 应 该 是 属于 该 类 的 样本 预 
测 的 平均 值 。 不 幸 的 是 ， 存 在 非常 多 的 将 样本 划分 为 个 类 的 方法 ， 搜 索 其 中 最 优 的 划分 
并 非 易 事 。 

有 -均值 算法 迭代 地 减少 平方 和 误差 。 首 先 ， 它 随机 地 为 每 个 类 别 赋 予 样本 ; 然后 执行 
下 面 两 个 步骤 : 

M: 对 于 每 个 类 别 i MEX HE pvalli, XI AMA val(e，X;) 的 平均 值 (e 属于 
AEH i): 

val (e,X;) 

pond i ) «Ses 

其 中 分 母 是 属于 类 别 i 的 样本 个 数 。 

E: 重新 为 每 个 样本 分 配 类 别 : 将 样本 。 分 配给 最 小 化 下 式 的 类 别 i: 


>) (poal Gi, X;) — val (e, X;))? 
j=1 


重复 上 述 两 个 步骤 直至 第 二 步 不 再 改变 样本 的 分 配 。 

如 果 执 行 M 步 和 下 步 不 改变 样本 的 分 配 ， 则 称 这 种 分 配 是 稳定 的 Cstable)。 注 意 ， 稳 
定 分 配 的 类 别 标签 的 任意 排列 仍然 稳定 的 。 

均值 算法 最 终 将 收敛 到 一 个 稳定 的 局 部 最 值 。 这 是 易于 理解 的 ， 因 为 平方 和 误差 保 
持 减少 的 趋势 和 仅 存在 有 限 次 的 分 配 。' 该 算法 常常 经 过 少数 几 次 迭代 就 收敛 。 大 均值 算法 
不 能 保证 收敛 到 一 个 全 局 的 最 小 值 。 为 了 改善 该 算法 的 结果 ， 可 以 尝试 不 同 的 初始 分 配 ， 
多 运行 几 次 该 算法 。 

【 例 11-2] Agent 已 经 观察 到 了 下 列 (X，Y) 数 据 对 : 

CO. 75. 1) ;C1.5,6), (2.154. 5), (2. 4,5. 5503.4. 49,03. 5,5) (4. 551.5), 

(5, 2302 7): C5. 34.1..8) C6. 251. 735 €6. 752.5). 5 C8. 599.2) 909: 1y 9. TH nC9J S388) 
11-1a 画 出 了 这 些 数 据点 。 假 定 Agent 想 将 这 些 数据 聚 成 两 类 。 


454 
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在 图 11-1b 中 ， 数 据点 随机 分 配给 了 类 : 一 类 用 十 表示 ， 男 一 类 用 XX 表示 。 十 类 的 均 
值 是 (4, 6，3. 65)， 尖 类 的 均值 是 (5. 2，6. 15》。 

在 图 11-1c 中 ， 各 个 数据 点 根据 其 与 两 个 均值 点 的 距离 重新 进行 了 分 配 。 重 新 分 配 后 ， 
十 类 和 ※ 类 的 均值 分 别 变 为 (3. 96，3. 27) 和 (7. 15，8. 34) 。 

在 图 11-1d 中 ,数据 点 重新 分 配给 与 其 最 近 的 均值 点 所 代表 的 类 。 这 个 分 配 是 稳定 
的 ， 因 为 进一步 的 重新 分 配 不 会 改变 样本 的 类 属 关系 。 

不 同 的 数据 点 初始 分 配 可 能 给 出 不 同 的 聚 类 结果 。 另 一 个 可 能 出 现 的 聚 类 结果 是 图 中 
最 下 面 的 那些 点 (Y 值 小 于 3 的 点 ) 组 成 一 个 类 ， 其 他 点 组 成 另外 一 个 类 。 

如 果 类 别 的 数目 设 为 3， 则 该 运行 该 算法 会 将 图 中 数据 划分 成 三 部 分 : 右上 和 角 一 类 ，、 
左 中 部 一 类 和 最 下 面 的 一 类 。 < 
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c) 首次 重新 分 配 最终 的 稳定 分 本 
11-1 大 均值 算法 必 一 2) 在 例 11-2 的 数据 上 的 运行 过 程 

k- 均 值 算法 的 一 个 问题 是 需要 考虑 各 维 数 值 的 相对 比例 大 小 。 例 如 假定 有 三 个 特征 : 
height, age 和 一 个 二 元 特征 ， 那 么 你 必须 对 不 同 的 值 域 按 比例 缩放 ， 以 便 它们 之 间 可 以 
进行 比较 。 如 何 缩 放 也 会 影响 聚 类 的 结果 。 

Agent 可 以 通过 搜索 找 出 一 个 合适 的 类 别 数 目 。 注 意 : 只 要 存在 的 不 同 的 样本 个 数 大 
于 &，& 十 1 个 类 别 总 是 比 k 个 类 别 具 有 更 小 的 误差 。 一 个 自然 的 类 别 数目 应 该 满足 这 样 
WATE: 从 & 一 1 个 类 别 到 大 个 类 别 ， 误 差 的 下 降 非常 明显 ; 而 再 增加 &， 误 差 的 下 降 并 不 
明显 。 此 外 ， 将 数据 聚 为 三 类 的 最 优 划 分 和 聚 为 两 类 的 最 优 划 分 可 能 是 非常 不 同 的 。 


11.1.3 用 于 软 聚 类 的 期 望 最 大 化 


EM 算法 可 以 用 于 软 聚 类 。 直 观 地 ， 对 于 聚 类 而 言 ，EM 算法 类 似 于 均值 算法 ,不 
同 的 是 前 者 中 的 样本 是 以 一 定 的 概率 属于 某 类 ， 且 该 概率 定义 了 距离 度量 。 这 里 假定 特征 
是 离散 型 的 。 
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与 有 均值 算法 一 样 ， 给 定 了 作为 输入 数据 的 训练 样本 和 类 别 的 数目 。 

当 进 行 聚 类 的 时 候 ， 类 的 作用 是 预测 特征 的 值 。 为 了 将 EM SRR. RF 
用 朴素 贝 叶 斯 分 类 器 作为 分 类 的 模型 ， 其 中 ,输入 特征 以 一 定 的 概率 依赖 于 类 别 ; 在 给 定 
类 别 的 条 件 下 ， 输 入 特征 之 间 是 相互 独立 的 。 类 变量 有 & 个 值 ， 假 定 为 11，…，A) 。 

给 定 朴素 贝 叶 斯 模型 和 训练 数据 ，EM 算法 产生 分 类 器 所 需 的 概率 ， 如 图 11-2 所 示 。 
图 中 的 C 代表 类 变量 。 已 知 类 变量 的 概率 分 布 和 给 定 类 别 条 件 下 的 特征 的 概率 ， 则 可 以 分 
类 任意 的 新 样本 。 





图 11-2 EM 算法 : 带 有 隐藏 类 的 贝 叶 斯 分 类 器 
为 了 初始 化 EM 算法 ,我 们 用 类 别 特征 C 和 计数 特征 count 的 列 扩充 数据 集 。 每 一 个 


原始 的 元 组 均 被 映射 为 个 元 组 (每 个 元 组 对 应 一 个 类 )。 随 机 指定 这 些 元 组 的 计数 值 , 使 [455 
得 它们 的 和 为 1。 例 如 ， 对 于 具有 四 个 特征 和 三 个 类 别 的 数据 集 ， 我 们 可 能 有 以 下 结果 : 


X: Xz Xs KX, C |Count| 





如 果 训练 样本 包含 多 个 具有 相同 输入 特征 值 的 元 组 ， 则 可 将 这 些 元 组 在 扩充 数据 集中 
组 合 在 一 起 。 如 果 训 练 数据 包含 这 样 的 m 个 元 组 ,它们 的 输入 特征 具有 相同 的 指定 值 ， 则 
在 具有 这 些 特征 值 的 扩充 数据 集中 ， 计 数 和 等 于 m, 

如 图 11-3 所 示 的 EM 算法 ， 同 时 维护 概率 表 和 扩充 数据 集 。E 步 更 新 计数 值 ，M 步 
更 新 概率 值 。 

Mł} 


ENE 


P(C) 

PŒLO 
PIO 
P(X,|C) 
P(X,|©) 





X k% % XC | count | 





EX 
图 11-3 无 监督 学 习 的 EM 算法 
详细 的 算法 见 图 11-4， 其 中 ，A[X, ，.…，X, ，C] 代 表 扩 充 数据 集 ，M;:[X,，C] 是 分 
ti P(X;，0) 的 边缘 概率 ，P(X;，C) 可 由 A 导出 ; P;[X;，C]j 代 表 条 件 概 率 PCX |C). 
算法 重复 下 面 两 个 步 又 : 
。 玉 步 。 基 于 概率 分 布 更 新 扩充 数据 集 。 假 定 在 原始 数据 集中 存在 元 组 (Xi Sos =, 
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X, 一 如 ) 的 m 个 备份 ， 则 在 扩充 数据 集中 ,与 类 < 关联 的 存储 于 ALn, es ws c] 
的 计数 值 更 新 为 : 
mXPIC=¢|Xy SR = v,) 
注意 ， 在 该 步 又 中 涉及 概率 推理 ， 如 后 所 述 。 
*。 M 步 。 由 扩充 数据 集 推断 模型 的 最 大 似 然 概 率 。 这 和 从 数据 中 学 习 概 率 是 一 样 的 问题 。 


l: procedure EM(X, D, $) 
Inputs 
X HER XS{X s Xn) 
DRA HHE( Xi. os Xa) 的 数据 集 
& 类 别 的 数目 
Output 
PCC), P(X, |C) 对 于 每 一 个 iE (1, nji C=, +, k} 
Local 
KERHA AXK, a Xa C] 
实 值 数 组 PLC] 
实 值 数组 Mi:[Xi，C]， 对 于 每 一 个 i€ {1: n) 
实 值 数组 PX, Cj]， 对 于 每 一 个 17E€ (1: n) 
s= D 中 的 元 组 数 
任意 指定 PLC] 和 Pi[LX;:，O] 的 值 
repeat 


for 每 一 个 指派 (Xi 二 vi，*"*，X» 二 vn)ED do 
4 m= | (X=, X= ED] 
for 每 一 个 <E11: k}do 
ALus, ts ty cl-mX PCC=C|Xi =a, =, 


for each ¿E€ (1; n}do 
MIX, C= Lx yn 


cpp th ALK» > Kes 
pix. c) = -MX 


DMX: +6] 


c 
PLC]= Bx x, ADGs OF Kas C]/s 
until 结束 





11-4 无 监督 学 习 的 期 望 最 大 化 


上 述 给 出 的 EM 算法 从 随机 选择 的 概率 开始 运行 ,初始 的 计数 也 是 虚构 的 。EM 算法 
将 收敛 于 数据 的 局 部 最 大 似 然 值 。 当 结果 的 改变 足够 小 的 时 候 可 以 终止 算法 的 运行 。 
457 该 算法 返回 一 个 可 用 于 分 类 已 存在 或 新 的 样本 的 概率 模型 。 分 类 一 个 新 样本 和 计算 上 
述 算法 第 20 行 式 子 的 值 的 方法 是 一 样 的 ， 即 
P(C=c)X Tira. =yu|C=0 
PCC = |X, = use, X, = un) = 一 一 
>) P= ey x [[ PC, = W)C =e’) 
上 述 概率 是 最 终 学 习 模型 的 一 部 分 。 
注意 上 述 算法 与 太 均 值 算法 的 相似 性 。 瑟 步 以 一 定 的 概率 将 样本 分 配给 类 ，M 步 确定 
类 别 的 预测 是 什么 。 
【 例 11-3) 考虑 图 11-3， 假定 E 是 扩充 的 样本 集 ( 即 增加 了 类 变量 C 和 计数 count 列 ) 
且 存 在 zw 个 样本 。 因 此 ，E 中 的 计数 和 总 是 m. 
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在 第 MAH, P(C=i) hit hy C=i HHRMA: 
2 ALX XC =f] 

扫描 一 遍 数 据 集 就 可 以 计算 上 式 的 值 。 

由 于 MiX, CNSR 
>). ALK 19+ Ka CI 


因此 ， 通 过 扫描 一 遍 数 据 集 更 新 所 有 的 MLX:，CJ] 数 组 是 可 能 的 。 见 习题 11.3。 可 以 通 
过 将 M: 数组 归 一 化 来 获得 用 卫 , 数组 表示 的 条 件 概率 。 
第 王 步 更 新 扩充 数据 集中 的 计数 值 。 它 将 图 11-3 中 的 0.4 替换 为 
P(C=1| 2, A 722 Az Ax) 
— Po, |C=DPis z;|C=DPG, C= DP&, |C =DPCC =) 





S Pian [C= )P( >a; |C= i) Pt; |C. = ) P(e, |C =) P(C =i) 
i=1 


这 些 概 率 是 最 终 学 习 模型 的 一 部 分 。 4 
注意 ， 只 要 有 >1，EM 算法 事实 上 总 是 具有 多 个 局 部 最 大 值 。 特 别 的 ， 一 个 局 部 最 大 
值 所 对 应 的 类 标签 的 任意 排列 仍 将 得 到 一 个 局 部 最 天 值 。 


11.2 信念 网 络 学 习 


信念 网 络 给 出 一 个 随机 变量 集 的 概率 分 布 。 我 们 不 能 总 是 期 望 专家 能 够 提供 准确 的 模 
型 ; 通常， 我 们 想 从 数据 学 习 一 个 网 络 。 

从 数据 中 学 习 一 个 信念 网 络 能 够 说 明 许多 问题 ， 这 些 问题 依赖 于 知道 多 少 先 验 信息 以 
及 数据 集 的 完整 性 如 何 。 最 简单 的 情形 是 : 结构 是 已 知 的 ， 且 每 个 样本 中 的 变量 是 可 见 
的 ， 需 要 学 习 的 仅 是 概率 。 另 一 个 极端 的 情形 是 : 解释 数据 的 假设 变量 是 未 知 的 ， 且 存在 
不 完整 的 数据 (数据 的 丢失 不 能 假定 是 随机 的 )。 


11.2.1 概率 学 习 


如 上 所 述 ， 最 简单 的 情形 是 ， 我 们 已 经 知道 模型 的 结构 和 已 观察 到 所 有 的 变量 ， 此 
时 ， 我 们 仅 需 学 习 概 率 。 这 和 7. 3. 3 节 所 介绍 的 概率 学 习 非 常 类 似 。 

利用 经 验 数据 和 伪 计 数 或 者 依据 Dirichlet 分 布 ， 我 们 可 以 单独 地 学 习 每 一 个 条 件 概率 分 布 。 

【 例 11-4] 图 11-5 显示 的 是 一 个 典型 的 情形 。 给 定 模型 和 数据 ， 目 标 是 推断 概率 。 

例如 ，P(E|AB) 其 中 的 一 个 元 素 是 


(examples:E=t\A=tA B=f)+ca 


P(E=t|A=tAB=)= (# examples; A=t A B= 有 +c 








Hep, a 是 情形 E=tAA=tAB=f hit 模型 概率 
数 ，c 是 情形 A 二 t 人 B= 的 伪 计 数 。 注 意 ， 
Cyg SiC < a 9 P(A) 

如 果 一 个 变量 拥有 多 个 父 节点 , 使 用 计 (有 ) 
数 或 伪 计数 可 能 导致 过 拟 合 。 对 于 父 变量 节 a 
点 的 一 些 组 合 而 言 ， 当 仅 存在 少量 样本 的 时 CC) (©) PIE) 


候 ， 过 拟 合 是 最 严重 的 。 此 时 ， 可 以 利用 第 图 11-5 ”从 模型 和 数据 中 学 习 概 率 
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460 
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7 章 介 绍 的 一 些 技术 (例如 ， 叶 节点 为 概率 的 决策 树 学 习 、sigmoid 线性 函数 和 神经 网 络 ) 
避免 过 拟 合 。 在 给 定 变 量 X 的 父 节 点 的 条 件 下 ， 使 用 有 监督 学 习 方法 学 习 X 的 条 件 概 率 
时 ， 父 节点 变 成 了 输入 节点 、X 变 成 了 目标 特征 。 决 策 树 可 用 于 任意 的 离散 变量 。sig- 
moid 线性 函数 和 神经 网 络 可 以 表示 一 个 二 元 变量 (给 定 其 父 节 点 ) 的 条 件 概率 。 如 果 不 是 
二 元 变量 ， 则 可 使 用 指示 变量 。 


11.2.2 未 观察 到 的 变量 


另 一 种 比较 简单 的 情形 是 : 给 定 了 模型 ， 但 并 非 所 有 的 变量 是 可 见 的 。 隐 藏 变量 
(hidden variable) 或 潜在 变量 (latent variable) 指 的 是 在 信念 网 络 中 未 观察 到 其 值 的 变量 ， 
即 在 数据 集中 不 存在 与 该 变量 相对 应 的 列 。 

【 例 11-5) 11-6 显示 的 是 一 种 典型 的 情 
形 。 假 定 所 有 的 变量 都 是 二 元 变量 。 模 型 中 包 
含 一 个 不 在 数据 集中 出 现 的 变量 E。 目 标 是 学 
习 包 括 隐 藏 变量 E 在 内 的 模型 的 参数 。 在 该 例 
FF, FE 10 个 需要 学 习 的 参数 。 

注意 ， 如 果 模 型 忽略 变量 EE， 则 算法 必须 
学 习 P(A), P(B), P(C|AB)# P(D|ABC), 11-6 从 缺失 数据 中 学 习 概 率 
它们 总 共有 14 个 参数 。 引 入 隐藏 变量 的 原因 就 是 为 了 使 得 模型 更 为 简单 ， 因 而 也 就 更 不 
易于 产生 过 拟 合 。 a 

本 质 上 ， 学 习 带 有 隐藏 变量 的 信念 网 络 的 EM 算法 ( 见 图 11-7) 与 用 于 聚 类 的 EM 算法 
是 一 样 的 。 前 者 的 卫 步 可 能 涉及 更 复杂 的 概率 推理 ， 因 为 对 于 每 一 个 样本 ， 它 都 需要 在 给 
定 观 察 到 的 变量 的 条 件 下 ， 推 断 隐藏 变量 的 概率 。 用 于 聚 类 的 EM 算法 的 M 步 从 扩充 数 
据 集中 推断 模型 的 概率 ， 这 和 前 节 讨 论 的 可 观察 到 所 有 变量 的 情形 是 一 致 的 ; 但 是 在 扩充 
数据 集中 ， 计 数值 不 一 定 是 整数 。 


> 概率 


P(A) 
P(B) 
P(E|A,B) 
P(C|E) 
P(D\E) 








Ex 
图 11-7 EM 算法 用 于 带 有 隐藏 变量 的 信念 网 络 


11.2.3 缺失 数据 


除了 未 观察 到 的 变量 之 外 ， 不 完全 数据 也 可 能 是 因为 其 他 原因 而 导致 的 。 数 据 集 的 某 
些 元 组 缺失 一 些 变量 的 值 是 可 能 的 。 当 一 些 变量 的 值 缺失 的 时 候 ， 我 们 使 用 这 些 数 据 集 就 
必须 十 分 小 心 ， 因 为 缺失 的 数据 可 能 和 我 们 感 兴趣 的 现象 相关 。 

【 例 11-6) 假定 存在 一 种 据 称 对 某 种 疾病 有 效 的 治疗 方法 ,其 实 这 种 治疗 方法 对 该 种 
疾病 根本 无 效 ， 它 只 能 使 病情 加 重 。 如 果 随 机 地 指定 病人 接受 这 种 治疗 ， 则 应 该 将 最 严重 
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的 病人 排除 在 实验 之 外 ， 因 为 病情 太 严 重 致使 他 们 不 能 参与 这 项 实验 。 与 没有 接受 这 种 治 
疗 的 病人 相 比 ， 接 受 这 种 治疗 的 病人 将 以 更 快 的 速度 退出 实验 。 因 些 ， 如 果 忽 略 了 病人 的 
缺失 数据 ， 则 这 种 治疗 看 起 来 好 像 是 有 效 的 。 接 受 这 种 治疗 且 仍 然 没 有 退出 实验 的 病人 会 
越 来 越 少 。 < 

如 果 数 据 的 缺失 是 随机 的 ， 则 可 以 忽略 这 些 缺 失 的 数据 。 然 而 ,“ 随 机 缺失 ”是 一 个 很 
强 的 假定 。 一 般 的 ，Agent 会 构建 一 个 解释 为 何 缺 失 数据 的 模型 ， 或 更 可 取 的 是 ， 它 应 该 
去 外 面 的 世界 调查 为 什么 数据 会 丢失 。 


11.2.4 结构 学 习 


如 果 我 们 拥有 完整 的 数据 且 不 存在 隐藏 变量 ， 但 信念 网 络 的 结构 未 知 ， 这 就 是 信念 网 
络 的 结构 学 习 (structure learning) 要 人 处 理 的 情形 。 
结构 学 习 存 在 两 种 主要 的 方法 : 
。 利用 基于 条 件 独 立 性 的 信念 网 络 的 定义 。 给 定 变 量 的 一 个 全 序 关 系 ， 使 得 变量 X 
的 父 节点 是 X 的 前 驱 变 量 的 子 集 ， 而 其 他 变量 与 X 相互 独立 。 这 种 方法 存在 两 个 
挑战 性 的 问题 ， 其 一 是 如 何 确定 最 优 的 全 序 关 系 ; 其 二 是 要 找 出 一 种 度量 独立 性 
的 方法 。 当 只 有 有 限 的 数据 时 ， 确 定 条 件 独立 性 是 不 容易 的 。 
。 第 二 种 方法 对 网 络 进行 评分 (例如 利用 MAP 模型 )， 它 同时 考虑 与 数据 的 匹配 性 
和 模型 的 复杂 性 。 给 定 这 样 的 一 个 度量 ， 我 们 就 可 以 搜索 最 小 化 误差 的 结构 。 
本 节 只 讨论 第 二 种 方法 ， 通 常 称 之 为 搜索 与 评分 (Csearch and score) 方 法 。 
假定 数据 是 样本 集 EE， 其 中 每 个 样本 的 变量 值 均 已 知 。 
搜索 与 评分 方法 的 目标 是 选择 最 大 化 下 式 的 模型 : 
P(model | data) cc P(data | model) P (model) 
其 中 似 然 性 P(data|model ) 是 每 一 个 样本 概率 的 乘积 。 利 用 积 的 分 解 ， 给 定 模型 的 前 所 下 
每 一 个 样本 概率 的 乘积 是 每 一 个 变量 概率 的 乘积 (给 定 变量 父 节点 的 条 件 下 )。 因 此 ， 
P(data | model) P(model) = ( [| P(e|model) ) P(model) 


= ( [| [[ Ps CX: | par (X, ,model)) ) PCmodel) 
eek X; 


其 中 ，par(Xi,model) 是 X; 的 父 节 点 ， Prvan(") 是 样本 e 在 模型 中 的 概率 。 
上 式 的 最 大 化 可 以 通过 最 大 化 它 的 对 数 形式 来 实现 。 当 采用 对 数 形 式 时 ， 上 式 变 为 ， 
logP (data | model) + logP (model) = >) >) logPioa (X: | par (X; model )) + logP (model) 


EE 


为 了 使 该 方法 切实 可 行 ， 假 定 将 模型 的 先 验 概 率 分 解 为 每 个 变量 的 先 验 概率 ， 即 每 一 个 变 
量 所 代表 的 局 部 模型 的 乘积 。 令 mode!(CX,) 是 变量 X; 的 局 部 模型 。 则 目标 是 最 大 化 下 式 : 
S) Dd) logP rece (X: | par (X, ,model)) + >) logP (model (X,)) 
= 5 ( S)logP ec (X; | par (Xi ,model)) + >) logP (model (X;)) ) 
= ( >) log Pseuei CX; | par CX; smodel)) + logP (model (X;)) ) 
除非 信念 网 络 的 无 环 条 件 限 制 了 变量 的 父 节点 之 间 的 关系 ， 否 则 可 以 通过 单独 优化 每 个 


变量 来 优化 整个 模型 。 然 而 ， 如 果 给 定 变量 的 一 个 全 序 关 系 ， 则 会 面临 这 样 一 个 分 类 问 
题 : 在 给 定 变量 的 前 驱 节 点 的 条 件 下 ,我们 想 预 测 每 一 个 变量 的 概率 。 为 了 表示 
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P(X, | par(X;, model)), RTT UER K a A ERE O 7.5.1 节 ), 或 者 
学 习 一 个 挤 压 线性 函数 。 给 定 变 量 前 驱 节 点 的 评分 ， 我 们 就 可 以 在 变量 的 全 序 上 进行 搜索 
以 最 大 化 模型 的 评分 。 


11.2.5 信念 网 络 学 习 的 一 般 情 形 


信念 网 络 学 习 的 一 般 情形 是 网 络 结构 未 知 、 隐 藏 变量 和 缺失 数据 ， 黄 至 不 知道 存在 
什么 变量 。 此 时 存在 两 个 主要 问题 : 其 一 是 前 面 已 经 讨论 过 的 缺失 数据 问题 ; 其 二 是 计算 
的 复杂 性 问题 。 明 然 存 在 一 个 定义 明确 的 搜索 空间 ， 这 个 空间 太 大 致使 尝试 所 有 的 变量 排 
序 和 隐藏 变量 的 组 合 是 不 可 能 的 。 如 果 仅 仅 考 虑 隐藏 变量 以 简化 模型 (这 看 起 来 是 合理 
的 )， 则 搜索 空间 虽然 是 有 限 的 ， 但 依然 太 大 。 

可 以 选择 最 优 的 模型 ( 即 具 有 最 大 后 验 概 率 的 模型 )， 也 可 以 取 所 有 模型 的 平均 值 。 取 
所 有 模型 的 平均 值 的 方法 能 给 出 较 好 的 预测 ， 但 对 于 一 个 必须 理解 或 证 实 模型 的 人 来 讲 ， 
这 种 方法 是 不 易 解 释 的 。 

组 合 上 述 方法 与 缺失 数据 是 一 个 更 困难 的 问题 ， 它 需要 更 多 的 领域 知识 。 


11.3 增强 学 习 


设想 在 现实 世界 中 行动 的 一 个 机 器 人 ， 它 接收 奖赏 或 惩罚 ， 并 由 此 决定 应 该 做 什么 。 
这 就 是 增强 学 习 (reinforcement learning) 的 问题 。 本 章 只 讨论 所 有 变量 均 可 见 的 单个 
Agent 增 强 学 习 ( 虽 然 10. 4.2 节 介 绍 了 多 Agent 增强 学 习 的 一 种 简单 形式 ) 。 

可 以 用 马尔 可 夫 决 策 过 程 形式 化 增强 学 习 ， 但 是 Agent 开始 的 时 候 只 知道 可 能 的 状态 
集 和 行动 集 。 因 此 ， 状 态 转移 函数 PO la, OWAKS RCE, a, s 7 初始 时 都 是 未 知 的 。 
Agent 能 够 在 现实 世界 中 行动 ， 而 且 在 每 一 步行 动 之 后 ， 能 够 观察 世界 的 状态 和 获得 什么 
奖赏 。 假 定 Agent 行动 的 目的 是 依据 折扣 因子 y 获得 最 优 的 折扣 。 

【 例 11-7] 考虑 如 图 11-8 所 示 的 微型 增强 学 习 问 题 ， 其 中 ，Agent 可 能 处 于 的 状态 有 
64, iW so s s; Agent 具有 二 种 行为 ， 即 UpC, Up, Left 和 Right, 这 些 是 
Agent 在 开始 行动 之 前 知道 的 所 有 信息 。Agent 不 知道 状态 是 如 何 设置 的 、 行 动 的 对 象 是 
什么 以 及 如 何 赢 得 奖赏 。 | 


图 11-8 显示 了 6 个 状态 的 设置 情况 。 假 定 行动 的 含义 如 下 : E 
upC (表示 up carefully): Agent 向 上 走 ， 除 了 在 状态 s, 和 ss 时 +0 

静止 不 动 (获得 奖赏 值 一 1) 。 abo] s | s | 
right: 在 状态 sos sa Mls, 时 ，Agent 向 右 走 ， 获 得 奖赏 值 0; 四 四 


在 其 他 状态 时 ，Agent 静止 不 动 ， 获 得 奖 沉 值 一 1。 


left: ÆRE s. s Al's: 时 ，Agent 向 左 走 。 在 状态 s 时 ，Agent 图 118 ee 


静止 不 动 ， 获 得 奖赏 值 一 1。 在 状态 sz WH. Agent 静止 不 的 环境 
动 ， 获 得 奖赏 值 一 100。 在 状态 5 MH. Agent El] sos RK 
得 奖赏 值 10。 


up: 除非 奖赏 值 是 0， 否 则 Agent 以 0. 8 的 概率 执行 与 wpC 相同 的 行动 ， 以 0. 1 的 概 
率 执行 与 left 相同 的 行动 ， 以 0. 1 的 概率 执行 与 right 相同 的 行动 。 
假定 存在 一 个 折扣 率 是 0.9 的 折扣 ， 这 可 以 解释 为 在 任意 步骤 中 Agent 离开 游戏 的 可 
能 性 是 0.1， 或 者 解释 为 Agent 更 喜欢 即时 而 非 未 来 的 奖赏 。 
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【 例 11-83 图 11-9 显示 了 一 个 更 为 复杂 的 游戏 。Agent 可 以 位 于 25 个 网 格 中 的 任意 
一 个 ， 但 只 有 位 于 角落 网 格 时 才 有 奖赏 。 当 Agent 位 于 角落 网 格 
并 获得 奖赏 (奖赏 值 是 10) 后 ， 该 网 格 中 的 奖赏 值 就 会 消失 。 如 果 
网 格 中 没有 奖赏 ， 则 在 每 一 步骤 后 均 以 某 个 概率 在 其 中 的 一 个 和 有 
落网 格 中 出 现 奖 赏 。 怪 物 可 以 在 任意 时 刻 出 现在 标 为 M 的 网 格 
中 。 如 果 怪 物 出 现在 Agent 所 在 的 网 格 ， 则 Agent 会 受到 损害 ， 
并 获得 一 10 的 奖赏 值 。Agent 可 以 通过 访问 修理 站 R 进行 修复 。 

在 这 个 例子 中 ， 状 态 由 4 个 元 素 构成 :《〈X，Y。，P，D)， 
Hh XAY dt Agent 所 处 位 置 的 横 坐 标 和 纵 坐 标 ， 书 是 具有 奖 
赏 值 的 位 置 (如 果 P, 有 奖赏 ， 则 P=0; MRP, 有 奖赏 ， 则 y 
P=1; P=2 和 P=3 以 此 类 推 。 如 果 没 有 奖赏 , 则 一 4)，D 图 也 ?9 网 格 游戏 的 环境 
是 布尔 变量 ， 当 Agent 受到 损坏 时 D 取 真 。 由 于 怪物 是 转瞬 即 逝 的 ， 因 此 不 必 包 含 在 状 
态 的 表示 之 中 。 状 态 的 总 数 是 5X5X5X2 王 250。 由 于 环境 是 完全 可 见 的 ， 因 此 Agent 知 
道 自己 处 于 什么 样 的 状态 ; 但 是 它 不 知道 状态 的 含义 ， 开 始 时 也 没有 关于 损坏 和 奖赏 是 什 

Agent 有 4 种 行为 向上、 向 下 、 向 左 和 向 有 。 这 些 行为 使 得 Agent 移动 一 步 ( 通 常 
移动 的 方向 如 行为 的 名 称 所 示 ， 但 有 时 也 会 朝 其 他 方向 移动 )。 如 果 Agent 撞 上 外 墙 或 内 
墙 ( 位 置 RSW). ， 它 就 停 在 原 位 置 并 获得 奖赏 值 一 1。 

Agent 只 知道 存在 250 个 状态 和 4 个 行为 ， 每 一 时 间 它 处 于 什么 状态 ， 每 次 它 获 得 了 
什么 奖赏 。 除 此 以 外 的 信息 它 一 概 不 知 。 

这 是 一 款 简单 的 游戏 ， 但 为 它 写 一 个 控制 程序 是 非常 困难 的 。 本 书 配套 的 网 站 上 提供 
了 一 个 Java 小 程序 ， 用 于 参考 和 修改 。 请 尝试 自己 写 一 个 这 样 的 控制 程序 ; 写 一 个 “每 运 
行 一 千 步 平均 获得 500 奖赏 值 ”的 控制 程序 是 可 能 的 。 学 习 该 游戏 也 是 不 容易 的 ， 因 为 内 
有 直到 Agent 意识 到 损坏 是 不 好 的 和 访问 R 可 以 修复 损坏 , 访问 R 看 起 来 才 有 意义 。 
Agent 必 须 在 努力 收集 奖赏 的 同时 跌跌撞撞 地 走 到 R 进行 修复 。 没 有 奖赏 的 状态 不 会 持续 
KA. Wb, Agent 必须 在 没有 给 定 “ 损 坏 ” 的 概念 的 条 件 下 进行 学 习 ; 它 初始 时 只 知道 存 
在 250 个 状态 和 4 种 行为 。 4 

增强 学 习 是 困难 的 ， 原 因 如 下 : 

。 责任 归属 问题 (blame attribution problem) 指 的 是 确定 哪个 行为 对 奖赏 或 惩罚 负责 。 

该 行为 可 能 在 获得 奖赏 很 久 以 前 就 发 生 了 。 此 外 ， 往 往 不 是 单个 行为 而 是 在 适当 
的 环境 下 多 个 行为 的 组 合 才 获得 了 奖赏 。 例 如 ， 可 以 通过 比 输赢 训练 Agent 玩 游 
戏 ; Agent 必须 确定 想 获得 胜利 采取 什么 行动 才 是 明智 的 。 你 可 以 尝试 训练 一 条 
狗 : 当 你 回 家 时 发 现 家 里 一 片 狼藉 就 骂 “ 坏 狗 ”。 狗 必须 确定 ， 在 它 先前 的 所 有 行 
为 当中 ， 哪 些 导致 了 主人 的 训斥 。 

。 即使 状态 没有 发 生 改 变 ，Agent 行为 的 效果 也 是 依赖 于 Agent 未 来 将 做 什么 。 那 
些 开 始 时 看 似 不 好 的 行为 有 可 能 最 后 是 最 优 的 ， 这 是 因 我 们 并 不 知道 Agent 将 来 
要 做 什么 。 这 种 现象 在 规划 问题 中 是 常见 的 ， 但 在 增强 学 习 中 显得 较为 复杂 ， 因 
为 Agent 预先 并 不 知道 行为 的 后 果 。 

。 “探索 与 利用 ?两 难 问题 : WR Agent 已 经 学 得 了 一 个 优秀 的 行动 方案 ， 它 是 继续 
这 种 方案 (利用 已 经 确定 的 行为 )， 还 是 探索 更 好 的 方案 ? 不 再 进行 探索 的 Agent 
将 沿 着 先前 得 到 的 方案 继续 前 行 ， 而 总 是 进行 探索 的 Agent 不 会 利用 学 到 的 知识 。 
该 两 难 问 题 将 在 11. 3. 4 节 作 进一步 讨论 。 
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11. 3. 1 演化 算法 


求解 增强 学 习 的 一 种 方法 是 将 它 视 为 一 个 最 优化 问题 ， 目 标 是 选择 一 个 最 大 化 期 望 总 
奖赏 的 策略 。 可 以 通过 策略 搜索 (policy search) 的 方法 解决 该 优化 问题 ， 它 在 所 有 策略 构 
成 的 空间 中 进行 搜索 以 找到 最 好 的 策略 。 策 略 是 一 个 控制 程序 ， 可 以 在 Agent 活动 环境 中 
运行 该 程序 以 评估 其 性 能 

策略 搜索 的 做 法 通常 是 作为 一 个 随机 局 部 搜索 算法 在 策略 空间 中 进行 搜索 。 可 以 通过 
在 真实 环境 中 运行 多 次 来 评估 策略 的 好 坏 。 

策略 搜索 的 一 个 难点 是 如 何 表示 策略 。 从 初始 策略 开始 ， 然 后 在 真实 环境 中 反复 评估 
该 策略 并 迭代 地 提升 性 能 。 这 个 过 程 称 为 演化 算法 (evolutionary algorithm)， 因 为 作为 一 
个 整体 的 Agent 的 评估 依赖 于 其 生存 状况 。 演 化 算法 往往 和 基因 算法 组 合 在 一 起 ， 基 因 算 
法 使 得 我 们 能 更 进一步 地 与 生物 的 进化 作 类 比 : Agent 之 间 相 互 竞争 会 导致 基因 突变 。 基 
本 思想 是 交叉 选择 提供 了 一 种 组 合 策略 最 佳 特性 的 方法 。 

演化 算法 存在 一 些 问题 。 首 先是 状态 空间 的 大 小 。 如 果 有 元 个 状态 和 zm 个 行动 ， 则 有 
m" 种 策略 。 例 如 ， 例 11-7 描述 的 游戏 中 有 4° = 4 096 种 不 同 的 策略 ; 例 11-8 描述 的 游戏 
中 有 250 个 状态 ， 因 此 有 4 10 “种 策略 。 这 是 一 个 非常 小 的 游戏 ， 但 它 可 能 的 策略 数 
却 超过 了 宇宙 中 所 有 粒子 的 数目 。 

第 二 ， 演 化 算法 以 一 种 极其 浪费 的 方式 利用 经 验 知识 。 如 果 一 个 Agent 位 于 例 11-7 
所 示 的 状态 s:， 并 且 移 向 左边 ， 此 时 你 希望 它 学 得 这 样 的 知识 : 从 状态 se 向 左 走 是 不 对 
的 。 但 是 演化 算法 一 直 要 等 到 Agent 已 经 从 整体 上 完成 和 评判 该 策略 之 后 才能 获得 这 样 的 
知识 。 随 机 局 部 搜索 将 在 状态 ss 随机 尝试 其 他 行动 ， 因 此 虽然 可 能 最 终 判 定 那个 行动 是 不 
对 的 ， 但 这 是 非常 不 直接 的 。 基 因 算 法 比 演化 算法 要 好 一 点 ， 因 为 Agent 在 状态 s WA 
走 的 策略 会 导致 Agent 死亡 ， 但 依然 是 非常 不 直接 的 。 

第 三 ， 演 化 算法 的 性 能 对 策略 的 表示 形式 非常 敏感 。 基 因 算 法 中 策略 的 表示 应 该 使 得 
交叉 选择 将 策略 中 好 的 部 分 保留 下 来 。 策 略 的 表示 通常 是 随 着 不 同 的 特定 领域 而 调整 的 。 

本 章 的 剩余 部 分 将 讨论 “一 步 一 学 习 ” 的 方法 ， 即 不 是 从 整体 上 学 习 一 个 策略 ， 而 是 学 
习 策 上 略 的 各 个 组 成 部 分 。 通 过 在 每 一 个 状态 中 学 习 做 什么 ， 我 们 能 使 间 题 的 规模 控制 在 状 
态 数 目的 线性 范围 内 ， 而 非 状态 数目 的 指数 范围 。 


11.3.2 | 时间差 
为 了 理解 增强 学 习 是 如 何 工 作 的 ， 首 先 考 虑 如 何 调和 按 顺序 提供 给 Agent 的 经 验 信息 。 
假定 存在 一 系列 的 数值 : ww 、vw:、vs，“…， 目 标 是 在 给 定 前 面 数值 的 条 件 下 预测 下 一 


个 数值 。 一 种 方法 是 取 vv 期望 值 的 一 个 运行 台 近 。 例如， 给 定 一 系列 学 生 的 成 绩 ， 下 一 个 
学 生 的 成 绩 的 合理 预测 是 前 面 这 些 成 绩 的 平均 值 。 
& A, 是 基于 前 面 个 数据 点 ww，…，wi 的 期 望 值 的 估计 。 一 个 合理 的 估计 是 取 平 均值 : 


a a 


由 此 ， 
kA, = th ot pat a N + wy = Ck— IAr + 
两 边 同时 除 以 &， 得 到 : | 


A=(1-+)Au+2 
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Sau = +, W 
Ay = (1— a Ans + anv, = Api +n (my — Ar) Chie) 


É vi 一 A;_1 称 为 时 间 差 分 误差 (temporal difference error) TD 误差 ， 它 说 明了 新 的 值 v 
与 旧 的 预测 值 A;_'1 之 间 的 差异 有 和 多大。 通过 将 a RW TD 误差 来 更 新 旧 的 预测 值 A,_1， 
并 得 到 新 的 估计 值 A;。 时 间 差 分 误差 的 定性 解释 是 如 果 新 的 值 大 于 旧 的 预测 值 ， 则 增 
加 预测 值 ， 反 之 ， 如 果 新 的 值 小 于 旧 的 预测 值 ， 则 减 小 预测 值 。 增 加 或 减少 的 量 和 新 的 值 
与 旧 的 预测 值 之 间 的 差 成 正比 。 注 意 ， 该 公式 对 于 第 一 个 值 (k= 二 1) 仍 然 成 立 。 

上 述 分 析 假 定 所 有 的 值 具 有 相同 的 权重 。 然 而 ， 考 虑 对 学 生成 绩 的 期 望 值 做 保守 的 估 
计 : 如 果 学 校 开 始 时 给 的 成 绩 就 比较 高 ， 则 新 的 值 比 旧 的 成 绩 对 于 目前 的 估计 更 有 利 ， 因 
此 新 的 值 应 该 给 予 更 大 的 权重 。 

在 增强 学 习 中 ， 后 面 的 值 v;( 即 更 近 的 值 ) 比 前 面 的 值 更 准确 ， 应 该 给 予 更 大 的 权重 。 
对 后 面 的 样本 加 更 大 的 权重 的 一 种 方法 是 使 用 式 (11. D, 不 同 的 是 ， 这 里 的 a( O<e<1) 
是 一 个 不 依赖 于 的 常数 。 不 幸 的 是 ， 当 序列 中 存在 易 变 的 值 的 时 候 ， 它 不 能 收敛 到 平均 
值 。 虽然 如 此 ， 如 果 潜 在 的 过 程 致使 数值 发 生变 化 ， 它 能 够 追踪 这 种 变化 。 

可 以 采用 缓慢 地 减少 a 值 的 方法 获得 两 方面 的 益处 : 对 新 近 的 样本 加 更 大 的 权重 且 仍 
然 收敛 于 平均 值 。 如 果 满 足下 列 条 件 则 可 保证 收 化: 


>- = co a 忆 co 
前 一 一 个 条 件 确保 随机 函数 和 初始 条 件 排除 了 平均 值 的 情况 ， 后 一 个 条 件 保证 收敛 性 。 

注意 ， 当 潜在 的 过 程 使 得 生成 的 值 不 断 发 生变 化 时 ， 保 证 收敛 到 平均 值 和 能 够 调整 到 
做 更 优 的 预测 是 不 相 容 的 。 

在 本 章 的 后 续 部 分 ， 没有 下 标的 a 假定 是 一 个 常数 ; 带 有 下 标的 a 是 样本 个 数 的 函数 ， 
这 些 样 本 的 组 合用 于 特定 的 估计 。 


11.3.3 GQ= 学 习 


在 Q- 学 习 及 其 相关 算法 中 ，Agent 试图 从 它 与 环境 的 交互 历史 中 学 习 最 优 的 策略 。 
Agent 的 历史 (history) 是 一 个 “状态 一 行为 一 奖赏 "序列 : 

Sordos ri 981 vay 972 982 sazaa rs3 925 27s 154 n°") 
意思 是 : Agent 在 状态 s 执行 了 行动 ce， 获得 奖赏 na 和 到 达 状 态 ss 然后 执行 行为 a, 
获得 奖赏 T2 和 到 达 状 态 S23 以 此 类 推 。 

我 们 将 历史 的 交互 信息 看 做 经 验 的 一 个 序列 ， 经 验 (experience) 定 义 为 元 组 : 

(ssQsrys') 
意思 是 : Agent 在 状态 s 执行 了 行动 a， 获得 奖赏 + MBGARA s'o Agent 能 够 从 这 些 经 验 数据 
中 学 习 做 什么 。 和 决策 理论 规划 一 样 ，Agent 的 目标 是 最 大 化 某 个 量 ， 这 通常 是 折扣 奖赏 。 

回忆 一 下 ，Q* (s，Q) 表 示 在 状态 s 执行 行动 a 的 期 望 值 (累积 折扣 )， 然 后 依据 最 优 的 
策略 执行 下 一 步行 动 。 

Q- 学 习 (Q-learning) 利 用 时 间 差 估计 Q CG, AKE. ERIP, Agent 维护 一 个 表 
QS, A], HP SMOQAMBREMTANRA. QWs, ORAM Q"(s， 双 的 当前 估计 值 。 

一 条 经 验 (s，a，r，s ) 为 计算 Q(s，a) 提 供 了 一 个 数据 。 这 个 数据 就 是 Agent 接收 的 
未 来 值 "十 VGD, JEP VG =m QG, a); 它 等 于 目前 的 奖赏 值 与 未 来 值 的 折扣 人 
计 的 和 。 新 的 数据 称 为 返回 值 。Agent 可 以 利用 时 间 差 公式 (11. 1) 更 新 Q(s，a) 的 估计 值 : 

QLsyal < 一 Qlsa] 十 wx(r 十 7 maxQ[Ly sa’ ] — Q[s,a]) 


467 


468 
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或 等 价 的 形式 ， 
Q[s,a] + (1 一 ac)QLs,a] 十 au(r 十 y maxQ[Y ya’ ]) 


图 11-10 显示 了 Q- 学 习 控 制程 序 。 它 假定 a 取 固 定 值 ; WMR a 是 变化 的 ， 则 对 于 每 一 
个 “状态 -行为 ”对 的 计算 是 不 同 的 ， 算 法 也 必须 记录 这 种 计算 过 程 。 


1; controller Q-learning (S, A, Y, a) 
2; Inputs 
S 是 状态 的 集合 
A 是 行为 的 集合 
7 是 折扣 率 
a 是 步 长 
Local 


实 值 数组 QLS, A] 
先前 状态 s 


先前 行动 a 
随机 初始 化 QLS，A] 
观察 目前 状态 s 
repeat 
选择 和 执行 一 个 行动 a 
观察 奖赏 ~ 和 状态 3 
Qs, al<Q[s, a]+ar+ymax,Q[s’, a’ ]—Q[s, a]) 
ses 


until 结束 





11-10 QQ 学 习 控 制程 序 


只 要 在 任意 的 状态 Agent 尝试 一 个 行为 的 次 数 不 受 限制 ( 即 Agent 在 一 个 状态 不 会 总 
是 执行 相同 的 行动 子 集 )， 则 不 管 Agent 真正 依据 的 策略 是 哪个 ( 即 对 于 任意 的 状态 s， 无 
论 执 行 哪个 行动 a)，Q- 学 习 算 法 都 学 习 一 个 最 优 的 策略 。 正 因为 如 些 ， 称 这 种 Q 学 习 为 
离 策 略 (off-policy) 方 法 。 

【 例 11-9】 考虑 图 11-8 中 给 出 的 例 11-7。 假 定 这 里 有 一 个 经 验 (s，a，r，s') 的 序列 
和 更 新 值 (保留 两 位 小 数 )( 其 中 ,7 = 二 0.9，a 二 0.2; 所 有 的 Q 值 都 初始 化 为 0): 


s a r s' 更 新 值 





upC 1 upC]=—0. 2 
Se up 0 sa Qls:, upl=—0 
S4 left 10 5 Qis,, left]=2. 0 
So upC —l ss Qs, “upC]=—0. 36 
52 up 0 s QLsz» up]=0. 36 
u laf 10 -so QLss, left]=3.6 
So up 0 s QLsos upCl]=0. 06 
Sz up —100 s Qlsz, upJ=—19. 65 
s2 up 0 f Q[Lsz, up]=— 15. 07 


S4 left 10 So Ql , left] =4, 89 


注意 奖赏 值 一 100 和 其 他 奖赏 值 是 如 何 调和 的 。 在 接收 到 奖赏 值 是 一 100 的 经 验 之 后 ， 
QLs; ，z 力 ] 的 值 为 


0. 8 X 0. 36 +0. 2 X (— 100+ 0.9 X 0. 36) =— 19. 65 


在 下 一 步 ，Agent 执行 相同 的 行为 但 输出 结果 不 同 ， 此 时 Q[s; up EEA 
0,8X (—19.65) +0. 2X (0+0.9X 3.6) 一 一 15.07 
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获得 在 状态 s 执行 up 行动 的 更 多 经 验 且 没有 接收 到 奖赏 值 一 100 之 后 ， 较 大 的 负 奖 
赏 值 将 最 终 被 正 奖 赏 值 所 调和 ， 因 而 对 QLs,，upj] 取 值 的 影响 就 降低 了 。 如 果 在 状态 s; 执 
行 up 行动 且 重 新 接收 到 奖赏 值 一 100， 则 又 开始 新 一 轮 循环 。 < 

当先 前 的 估计 值 比 最 近 的 估计 值 更 糟糕 的 时 候 ， 考 虑 w 是 如 何 调和 奖赏 值 是 有 益 的 。 下 面 
的 一 个 例子 显示 了 确定 的 行为 序列 的 效果 。 注 意 ， 当 一 个 行为 是 确定 的 ， 我 们 可 以 使 用 a==1。 

【 例 11-10] 考虑 例 11-7。 假 定 Agent 有 下 述 经 验 : 

{So right 4045; upCy —1,sz.upC, —1,55 ,left,0,s, ,le ft ,10,5,) 
并 多 次 重复 这 个 行为 序列 。( 注 意 ， 一 个 实际 的 Q- 学 习 Agent 不 会 持续 重复 相同 的 动作 ， [470 
特别 是 当 如 本 例 所 描述 的 Q- 学 习 记 录 的 时 候 ， 其 中 一 些 值 看 起 来 并 不 好 ， 但 我 们 认为 可 
以 帮助 手 解 Q- 学 习 是 如 何 工 作 的 。) 

图 11-11 显示 了 多 次 重复 执行 这 个 动作 序列 时 Q 值 是 如 何 更 新 的 。 上 述 表 中 的 Q 值 均 
初始 化 为 0。 


迭代 次 数 QEso, right] Q[s1, upC] Qls:, upC] Qiss, left] Q[ss, left] 


4.5 
0. 35 6.0 
0 —0.92 1. 36 6. 75 
0. 03 0.51 4 8.1 
2. 54 4.12 6. 82 9.5 
1000 4.63 5, 93 8, 46 11,3 
10 000 6. 08 7.39 9. 97 12. 83 
100 000 7.27 8. 58 11, 16 14, 02 
1 000 000 8. 21 9.52 12.1 14. 96 
10 000 000 8. 96 10, 27 12. 85 15.71 
ce 11. 85 13.16 15. 74 18. 6 
a) 一 个 确定 行为 序列 (每 一 个 “状态 一 行为 "对 都 有 独立 的 a 值 ，ax 王 1/ 如 的 QQ 学 习 


迭代 次 数 QLso, right] Ql, upC] Qiss, upC] Q[ss, left] Qlsy, left] 











b) 一 个 确定 行为 序列 (a 二 1) 的 Q@ 学 习 
QLso, right] Qin, upC] Q[ss, upC] QLss» left] Q[ss, left] 





19.5 21.14 24. 08 27. 87 30. 97 
c) 全 面 探索 并 收敛 之 后 的 QQ@ 值 
图 11-11 例 11-10 描述 的 QQ 学 习 的 过 程 。 QQ 学习 算法 的 某 次 特定 运行 的 更 新 值 
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a) 每 一 个 “状态 -行为 ?对 都 有 独立 的 a 值 。 注 意 ， 第 一 次 迭代 只 更 新 了 即时 奖赏 值 。 
第 二 次 迭代 对 正 奖 赏 值 做 了 单 步 备 份 。 由 于 存在 男 外 一 个 Q 值 是 0 的 行为 ， 所 以 没有 备份 
一 1。 第 三 次 迭代 做 了 两 步 备份 。Q[s3，upC] 得 以 更 新 的 原因 是 在 两 步 之 前 它 的 奖赏 值 是 
10。QLss，upC] 取 其 经 验 的 平均 值 : (一 1 十 (一 1) 十 (一 1 十 0. 9X6)9/3。 

b) a 二 1]， 因 此 只 考虑 目前 的 估计 。 同 样 ， 每 次 送 代 都 对 奖赏 值 做 了 单 步 备 份 。 在 第 
三 次 迭代 中 ，QLs: ，xzC] 得 以 更 新 的 原因 是 在 两 步 之 前 它 的 奖赏 值 是 10， 但 由 于 此 时 a= 
1， 所 以 算法 忽略 了 先前 的 估计 值 ， 只 使 用 新 的 经 验 ， 即 一 1 十 0. 9X0.9。a=1 Ka=l/k 
具有 更 快 的 收敛 速度 ,但 仅 当 行 为 是 确定 的 时 候 a==1 才 收 敛 ， 原 因 是 它 隐 含 地 假定 最 后 
的 奖赏 值 和 最 终 的 状态 代表 了 未 来 的 奖赏 值 或 状态 。 

c) 图 11-11lc 列 出 了 如 果 算 法 允许 Agent 进行 探索 (这 是 正常 现象 )， 则 收敛 之 后 的 部 
分 Q 值 。 注意 ， 由 于 存在 随机 的 行为 ,为 了 收敛 a 不 能 为 1; 此 时 的 Q 值 比 确定 行为 序列 
的 情形 大 的 原因 是 这 些 行 为 没有 形成 一 个 最 优 的 策略 。 

收敛 之 后 的 最 终 策略 是 : 在 状态 so 执行 动作 ups EIRA s- 执行 动作 wpC， 在 状态 sı 
和 ss 执行 动作 wp， 在 状态 sa 和 ss 执行 动作 le fe. 

你 可 以 运行 该 例子 的 小 程序 (在 本 书 配套 的 网 站 上 可 以 找到 )， 并 尝试 不 同 的 初始 值 和 
不 同 大 小 的 a. < 


11.3.4 ”探索 与 利用 


Q- 学 习 算 法 没有 指定 Agent 实际 上 应 该 做 什么 。Agent 学 习 一 个 可 用 于 确定 最 优 行为 
的 Q 函数 。 下 列 两 件 事 是 值得 Agent 去 做 的 : 
。 利用 (exploit) 它 已 经 发 现 的 关于 目前 状态 的 知识 ， 该 知识 是 通过 执行 能 够 最 大 
化 QLs，aj] 的 行为 a 而 获得 的 。 
。 探索 (explore) 的 目的 是 建立 当前 最 优 Q 函数 的 一 个 更 好 的 估计 。 换 名 话说 ， 它 应 
该 选择 一 个 与 当前 看 来 是 最 优 的 行为 不 同 的 行为 。 
存在 许多 在 探索 和 利用 之 间 进 行 折衷 的 建议 方法 : 
。 ce- 贪心 策略 以 1 一 e 的 概率 选择 贪心 的 行为 (最 大 化 Qs, alk TA), A e 的 概率 选 
择 随 机 的 行为 ， 其 中 0<e 夺 1。 随 着 时 间 的 推移 改变 的 大 小 是 可 能 的 。 直 观 的 ， 
在 算法 运行 的 早期 Agent 应 该 选择 一 个 比较 随机 的 策略 ， 以 促进 初始 探索 ， 随 着 
时 间 的 推移 ， 它 应 该 选择 越 来 越 贪 心 的 策略 。 
。 ee 贪心 策略 的 一 个 问题 是 它 同 等 看 待 所 有 的 行为 (最 优 的 行为 除外 )。 如 果 存 在 两 个 
看 起 来 较 好 的 行为 ， 以 及 多 数 看 起 来 没什么 希望 的 行为 ， 则 在 较 好 的 行为 中 做 选 
择 可 能 是 更 明智 的 : 花 更 多 的 精力 在 这 些 有 希望 的 行为 中 确定 哪个 是 最 优 的 ， 而 
不 是 在 那些 没有 希望 的 行为 中 浪费 时 间 。 一 种 办 法 是 以 一 定 的 概率 选择 行为 a， 这 
个 概率 依赖 于 QLs，aj] 的 值 。 这 就 是 所 谓 的 “ 软 最 大 化 ”(soft-max) 行 为 选择 法 。 通 
常 的 方法 是 利用 Gibbs 或 波 尔 兹 曼 分 布 (Boltzmann distribution)， 其 中 在 状态 ; 选 
择 行为 a 的 概率 与 ea 成 正比 。 具 体 的 ， 在 状态 * Agent 选择 行为 a 的 概率 是 
QU al/s 
year 
其 中 tz 二 0 是 温度 参数 ， 它 指定 应 该 选择 怎样 随机 的 值 。 当 = 较 大 时 ， 任 意 行为 被 选 
中 的 概率 几乎 一 样 ; 减少 = 值 ， 则 拥有 最 大 值 的 行为 被 选中 的 可 能 性 更 大 ; 40, WS 
是 选择 最 优 的 行为 。 
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。 男 一 种 方法 是 “ 面 对 不 确定 性 的 乐观 处 理 ”: 初始 化 Q 函数 使 得 能 够 促进 探索 。 如 
果 Q 函数 的 初始 值 较 大 ， 则 未 探索 的 区 域 看 上 去 也 是 不 错 的， 以 致 信心 搜索 倾向 
于 进行 探索 。 虽 然 这 促进 了 探索 ， 但 是 Agent 会 好 长 一 段 时 间 处 于 某 些 “状态 - 行 
为 "对 是 不 错 的 幻觉 ， 即 使 没有 证 据 表 明 这 一 点 。 一 个 状态 看 上 去 很 粮 糕 ， 仅 当 它 
的 所 有 行为 看 上 去 很 糟糕 ! 但 是 当 所 有 的 行为 表明 这 个 状态 是 不 错 的 时 候 ， 获 得 
实际 值 已 经 花费 了 很 长 时 间 。 换 言 之 ，Q 函数 旧 的 估计 值 可 能 是 十 分 糟糕 的 ， 但 
却 可 能 保留 很 长 一 段 时 间 。 为 了 提高 收敛 速度 ， 初 始 值 应 该 和 最 终 值 尽量 接近 ， 
一 个 过 高 的 估计 会 降低 收敛 的 速度 。 如 果 改 变 了 状态 转移 函数 ， 则 仅仅 依赖 “ 面 对 
不 确定 性 的 乐观 处 理 ” 是 没有 用 的 ， 因 为 它 将 初始 的 时 间 段 视 作 探索 的 时 间 ， 初 始 
探索 过 后 ， 探 索 就 越 来 越 少 了 。 

研究 探索 策略 和 更 新 a 的 方法 之 间 的 相互 影响 是 有 趣 的 ， 见 习题 11. 8。 


11.3.5 增强 学 习 算 法 的 评估 


一 个 增强 学 习 算法 的 优 劣 可 以 通过 考察 Agent 在 现实 世界 中 找到 怎样 的 策略 和 获得 多 
少 奖 赏 来 评判 。 更 重要 的 是 ， 它 取决 于 Agent 将 如 何 被 部 署 应 用 。 如 果 在 部 署 之 前 Agent 
有 充足 的 时 间 进 行 安稳 的 学 习 ， 则 最 终 的 策略 可 能 是 最 重要 的 。 如 果 Agent 必须 在 部 署 的 
同时 进行 学 习 ， 那 么 它 可 能 永远 也 不 会 到 达 “ 学 得 了 最 优 策略 ”的 阶段 ; 在 学 习 过 程 中 所 接 
收 的 奖赏 可 能 就 是 Agent 欲 最 大 化 的 目标 。 
展示 一 个 增强 学 习 算法 性 能 的 一 种 方法 是 用 图 表 画 出 随 迭 代步 数 的 变化 而 变化 的 累积 
奖赏 值 ( 至 今 为 止 接收 到 的 奖赏 值 的 和 )。 如 果 一 种 算法 的 曲线 总 是 在 另 一 种 算法 的 曲线 之 
上 ， 则 说 明 前 者 更 优 。 
【 例 11-11] 图 11-12 比较 了 在 例 11-8 所 示 的 游戏 上 的 4 种 Q- 学 习 算法 的 性 能 。 该 图 
的 生成 使 用 了 本 书 配 套 网 站 上 的 小 程序 的 “跟踪 控制 台 ” 功 能 。 


50 000 


40 000 


0 50 100 150 200 
迭代 步 数 〈 单 位 : TO 


图 11-12 随 着 迭代 步 数 的 增加 而 变化 的 累积 奖赏 值 
图 上 的 4 种 不 同 的 Q- 学 习 由 3 个 方面 规定 : a 是否 取 固定 值 、Q 函数 的 初始 值 和 行为 
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选择 的 随机 程度 。 它 们 在 开始 的 100 000 迭代 步 中 ， 以 80%( 即 8 二 0. 2) 的 概率 贪心 利用 学 
得 的 知识 ; 在 后 续 的 100 000 迭代 步 中 ， 这 种 概率 则 为 100%( 即 e==0)。 图 中 最 上 面 的 算 
法 性 能 最 好 。 

对 一 个 算法 而 言 ， 不 同 次 运行 的 结果 会 有 很 大 的 差异 ， 因 此 为 了 准确 地 比较 这 些 算 
法 ， 我 们 必须 多 次 运行 相同 的 算法 。 在 这 个 例子 中 ， 累 积 奖赏 值 取决 于 Agent 是 否 学 得 了 
访问 修理 站 的 知识 (Agent 并 不 总 是 学 习 这 些 知 识 )。 因 而 这 个 例子 中 的 累积 奖赏 值 倾 向 于 
具有 “ 双 峰 ”的 分 布 ， 见 习题 11. 8。 a 

图 中 有 3 个 重要 的 统计 量 : 

。 渐 近 斜率 说 明 算 法 稳定 后 策略 的 优 劣 。 

。 曲线 的 最 小 点 表示 累积 奖赏 值 开 始 增 加 之 前 需要 牺牲 多 少 奖赏 。 

。 零 交 叉 点 表示 算法 需要 多 长 时 间 补 偿 学 习 的 代价 。 

当 同 时 存在 正 奖 赏 和 负 奖 赏 的 时 候 ， 后 面 的 两 个 统计 量 是 很 有 用 的 ; 合理 的 行为 能 保 
持 正 奖赏 和 负 奖 赏 之 间 的 平衡 。 对 于 其 他 情形 ， 累 积 奖赏 值 应 该 与 适合 于 该 例子 的 合理 行 
为 进行 比较 ， 见 习题 11. 7 。 

关于 累积 奖赏 曲线 图 必须 注意 的 一 个 事实 是 ， 它 度量 总 的 奖赏 值 ; 然而 算法 在 每 一 步 
优化 的 是 折扣 奖赏 值 。 一 般 的 ， 应 该 优化 最 适合 于 特定 问题 的 优化 准则 以 及 利用 该 准则 评 
估算 法 的 优 劣 。 


11. 3.6 在 策略 学 习 


只 要 Agent 进行 了 足够 的 探索 ， 则 不 管 它 做 什么 ，Q- 学 习 算 法 总 是 学 习 一 个 最 优 的 策 
略 。 可 能 存在 这 样 的 情形 : 忽略 Agent 真正 做 什么 是 危险 的 (会 有 很 大 的 负 奖 赏 值 )。 一 种 
方法 是 学 习 Agent 即将 执行 的 策略 的 值 ， 以 便 能 迭代 地 提升 性 能 。 因 此 ， 学 习 器 能 够 考虑 
与 探索 相关 的 代价 。 

离 策 略 学 习 器 (off-policy learner) 学习 controller SARSA(S, A, y, a) 
独立 于 Agent 行为 的 最 优 策略 值 。Q 学 习 就 | “ wes 
是 一 种 离 策略 学 习 器 。 在 策略 学 习 器 (om- A 是 行为 的 集合 
policy learner) 学 习 Agent 即将 执行 的 策略 We 
的 值 ， 包 括 探索 的 步 数 。 Internal State; 

SARSA( 这 个 名 字源 于 它 运用 “状态 - 行 | ZARA AS, Al 
为 -奖赏 -状态 -行为 ”经 验 来 更 新 Q 值 ) 是 一 
个 在 策略 增强 学 习 算 法 ， 它 估计 即将 执行 的 “| “随机 初始 化 acs, AI 
策略 的 值 。SARSA 中 经 验 的 形式 为 (s，a， 观察 目前 的 状态 
ry fy th, MBS Arnt EPs Ai 利用 一 个 基于 Q 的 策略 选择 


repeat forever; 


行为 &，、 接 收 奖赏 r, BRERA s» HH Seo i 
此 决定 执行 行为 a'。 该 经 验 提供 了 一 个 用 以 利用 二 个 基于 OREM! 


更 新 Q(s，a) 的 新 值 ， 即 rt+yvQ6', a’). Alsa] QLssa] + alr + YQLs',0'] — Olsa) 
Al 11-13 给 出 了 SARSA 算法 。 sae 
SARSA 考虑 了 目前 的 探索 策略 ， 该 策 

略 可 能 是 贪心 的 (关于 随机 步骤 ) 。 当 探索 可 


能 导致 比较 大 惩罚 的 时 候 ，SARSA 可 以 找 图 11-13 SARSA: 在 策略 增强 学 习 
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到 一 个 与 Q@ 学 习 不 同 的 策略 。 例 如 ， 当 一 个 机 器 人 扑 到 接近 楼 梯 顶 的 时 候 ， 虽 然 这 是 一 
个 最 优 的 策略 ， 此 时 进行 探索 可 能 是 危险 的 。SARSA 将 发 现 这 种 危险 ， 并 采用 使 机 器 人 
离开 楼 梯 的 策略 。 它 能 够 在 考虑 策略 内 在 探索 的 同时 找到 最 优 的 策略 。 

LB 11-121 在 例 11-10 中 ， 最 优 的 策略 是 在 状态 so 执行 up 动作 (图 11-8) 。 然 而 ， 
Agent 进行 探索 并 非 好 事 ， 因 为 从 状态 s; 开始 探索 是 非常 危险 的 。 

如 果 Agent 执行 包括 探索 的 策略 ,“ 在 状态 s， 以 80%% 的 概率 选择 最 大 化 QLs，aj 的 动 
作 a， 以 20% 的 概率 随机 选择 一 个 动作 ”， 在 状态 so 执行 up 动作 并 非 是 最 优 的 。 在 策略 学 
. 习 器 努力 优化 Agent 即将 执行 的 策略 ， 而 非 不 包含 探索 的 最 优 策 略 。 

假设 你 重 做 如 图 11-11 所 示 的 实验 ， 则 SARSA 将 备份 一 1 值 ， 而 Q@ 学 习 则 不 会 ， 原 
因 是 存在 估计 值 是 0 的 行为 。 图 11-11a 和 图 11-11b 中 的 Q 值 将 收敛 于 相同 的 策略 值 。 

与 QJ, SARSA 中 的 最 优 策略 值 更 小 。SARSA 中 的 对 应 于 图 11-1llc 的 值 
如 下 : 


迭代 步 数 Q[so, right] Ql, upC] QLs;, upC] Qls;, left] Als, left] 
co 9.2 10, 1 LAT 15. 7 18.0 


使 用 SARSA 算法 的 最 优 策略 是 在 状态 so 执行 动作 right。 这 就 是 Agent 以 20% WBE 
率 进行 探索 得 到 的 最 优 策略 ， 因 为 增加 探索 的 比例 是 危险 的 。 如 果 探 索 的 比例 下 降 ， 则 找 
到 的 最 优 策略 可 能 不 同 。 探 索 的 比例 越 小 ， 找 到 最 优 策略 所 花费 的 时 间 就 越 长 。 < 

当 目 标 是 优化 正在 探索 的 Agent 的 值 时 ，SARSA 算法 是 很 有 用 的 。 如 果 你 想 执行 离 
线 学 习 ， 并 利用 不 进行 探索 的 Agent 中 的 策略 ， 则 Q- 学 习 可 能 更 合适 。 


11.3.7 为 路 径 分 配 信用 和 责任 


在 Q- 学 习 和 SARSA 算法 中 ， 当 接收 到 一 个 奖赏 值 时 只 是 修改 前 一 个 “状态 -行为 ”对 
的 值 。 直 观 的 ，Agent 通过 执行 一 系列 的 算法 步骤 而 获得 的 奖赏 ， 应 该 和 所 有 的 步 又 都 是 
有 关系 的 ， 因 此 ， 对 于 该 奖赏 ， 每 个 步骤 均 应 分 配 相 应 的 信用 和 责任 。 本 章 介 绍 其 中 的 一 
个 分 配 算法 。 

【 例 11-13) 假定 存在 这 样 的 一 个 行为 *right”， 它 顺序 访问 状态 ss、s:、ss Al sy. A 
仅 当 Agent 从 状态 ss 进入 状态 s: 时 才 获 得 一 个 奖赏 ; 从 状态 % 开始 的 任意 行为 均 返 回 状 
态 5。 同 时 ， 存 在 行为 “lefti”， 除 非 在 状态 s， 否 则 它 向 左 走 。 在 Q@ 学 习 和 SARSA t, 
当 遍 历 了 状态 ss sa sy 和 % ， 并 接收 到 奖赏 之 后 ， 只 有 QLs;，right] 得 到 了 更 新 。 如 果 
再 次 访问 相同 的 状态 序列 ， 则 当 进 入 状态 ss FY, Ql, right MBB RM. Ql, right] 
的 更 新 仅 发 生 在 下 次 从 状态 s 进入 s 的 时 候 。 从 这 个 意义 上 我 们 说 ，Q 学 习 只 做 了 一 步 
备份 。 

考虑 基于 因 进 入 状态 s 而 获得 奖赏 的 QLss，rightj] 的 更 新 。 站 在 状态 ss 的 角度 看 ， 
算法 做 了 一 步 备份 ; 而 站 在 状态 ss 的 角度 看 ， 算 法 做 了 超前 一 步 的 预测 。 为 了 使 算法 允许 
将 更 多 的 步 又 与 责任 进行 挂钩 ， 接 收 到 因 进 入 状态 ss 而 获得 的 奖赏 之 后 ， 可 以 进行 两 步 备 
份 以 更 新 sz 的 值 ; 换 名 话说， 站 在 状态 ss 的 角度 看 ， 算 法 做 了 超前 两 步 的 预测 以 更 新 s。 
的 值 。 下 面 的 算法 描述 基于 上 述 “ 超 前 ”的 概念 ， 但 利用 的 是 备份 的 实现 方法 。 < 

假定 Agent 在 状态 s 执行 行为 a, 后 进入 状态 so FEMA RA ro 接着 执行 行为 
ai 后 进入 状态 s FE REM BR AE ro FERS IRD 上 超前 两 步 的 预测 返回 值 是 Re =r + 
Yra HYV Cse) Ait TD REA: 
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& = re + re HYV Csu) — Qs +0; ] 

其 中 V (sts) 是 在 状态 Se+2 的 估计 值 。 两 步 更 新 如 下 : 

Qls, ra] < QLs, sa | + að: 

不 幸 的 是 ， 这 并 非 是 最 优 Q 值 Q 的 一 个 好 的 估计 ， 因 为 行为 wstx 可 能 不 是 最 优 的 。 
例如 ， 如 果 执 行 行为 er 使 得 Agent 进入 一 个 奖赏 值 是 一 10 的 位 置 ， 并 且 存 在 更 好 的 行 
Ay 则 Agent 不 会 更 新 QLs ，ao]。 然 而 ， 多 步 备份 提高 了 Agent 实际 遵循 的 策略 的 估计 
精度 。 如 果 Agent 遵循 的 策 酷 记 为 x， 则 备份 给 出 了 一 个 改进 的 估计 Q*。 因 此 ， 多 步 备份 
可 应 用 于 诸如 SARSA 的 在 策略 方法 。 

假定 Agent 在 状态 s: 执行 行为 wa 后 接收 到 奖赏 值 r,;, 并 进入 状态 s+1， 接 着 执行 行为 
ai 后 接收 到 奖赏 值 r,s 并 进入 状态 +;， 以 此 类 推 。 在 时 间 t 超前 n(n 宇 1) 步 的 预测 返回 
值 记 为 R” ， 则 | 

RP = ra Fre AY tas my Taa TYN Ga) 

可 利用 该 式 和 TD RŽ RP —ALs,, a, JEW QLs,，a,]。 但 是 ,确定 的 值 是 不 容易 的 。 除 
了 选择 一 个 特定 的 n 并 向 前 看 n 步 ， 选 择 一 系列 nn 步 返回 值 的 平均 值 是 可 能 的 。 一 种 方法 
是 取 所 有 nn 步 返回 值 的 加 权 平 均值 ， 其 中 未 来 的 返回 值 以 指数 级 衰减 (衰减 系数 为 X*)。 这 
就 是 所 谓 的 SARSA(X) 方 法 的 直观 思想 。 当 接收 到 一 个 奖赏 ， 更 新 所 有 已 访问 状态 的 值 ; 
对 于 该 奖赏 ， 更 星 的 状态 接收 更 少 的 信用 或 责任 。 


令 
R= a» Dane 


其 中 (1 一 力 是 一 个 归 一 化 常量 ， 用 以 确保 获得 一 个 平均 值 。 下 表 给 出 了 上 和 式 计算 结果 的 细 
节 信 息 : 









返回 值 





EX he TYV Cs) 


2 步 Cl=a)a PaL YT te HYV Csa) 

34 HSD ot Rs sor Vises) 

4 步 CIm Tit ra EEA Aina T naa 
好 十 1 上 FY Vira) 


ape 


合并 -+ 的 同类 项 ， 得 
R = rai YV) — AY WG) + AY re + AY? Vue) — A YV Ge) HRY ras + AV Gas) 一 


BP V Cs) FAY re HAYN Cad AAV Gad + 

一 种 SARSA WEB AE BAEK PN VG) WAR AE QLs,4;，ai4;」) 将 会 用 到 
上 式 的 计算 。TD 误差 ， 即 返回 值 减 去 状态 的 估计 值 是 : 

也 一 QLssa] = rar + QDs amd — OL, 20, d+ AY Cre + VOL sae Qe |] — OSs rari 1) HS Cras 

+ OD ses sans J— Ose sana D FAY Ce + VOLS sana — Olsem sa J) + …* 

不 是 等 到 计算 结束 (可 能 永远 也 不 会 发 生 )，SARSA(N) 在 未 来 的 每 个 时 间 里 都 更 新 Q[s,，a] 
的 值 。 当 接收 到 奖赏 reo Agent 可 以 利用 前 述 公 式 中 的 合适 的 项 的 和 更 新 QLs,，a,]。 由 于 
在 所 有 的 时 间 里 都 要 进行 更 新 操作 ， 所 以 rvs HYAL see > ar 1I—QLs+2 ， Qartzj] 可 用 于 更 新 所 
有 的 先前 状态 。Agent 可 以 通过 维护 一 个 “资格 迹 ”(eligibili tytrace) 来 实现 这 一 点 ， 其 中 的 资 
格 迹 规 定 在 每 一 个 时 间 步 中 对 于 一 个 “状态 -行为 "对 应 该 更 新 的 量 是 多 少 。 当 一 个 “状态 - 行 
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为 "对 首先 被 访问 ， 则 它 的 资格 设置 为 1。 在 随后 的 每 个 时 间 步 里 ， 它 的 资格 是 不 断 减 少 的 ， 


减少 系数 为 jir。 如 果 该 “状态 -行为 "对 被 再 次 访问 ， 
则 其 资格 加 1。 l 

用 一 个 数组 eLS, 4 来 表示 资格 迹 ， 其 中 S All A 
分 别 是 所 有 状态 的 集合 和 所 有 行为 的 集合 。 在 执行 每 
一 个 行为 之 后 ， 更 新 每 个 "状态 -行为 "对 的 Q 值 。 

SARSA(W) 算 法 见 图 11-14。 

虽然 该 算法 规定 对 于 每 一 个 状态 s 和 行为 a， 每 
当 接 收 到 一 个 新 的 奖赏 就 更 新 QLs，a]， 但 仅仅 更 
新 那些 资格 大 于 某 个 阔 值 的 不 仅 更 高 效 ， 而 且 准 确 
率 的 损失 也 很 小 。 


11.3.8 基于 模型 的 方法 


在 许多 增强 学 习 的 应 用 中 ， 每 两 个 行为 之 间 存 
在 大 量 的 空闲 计算 时 间 。 例 如 ， 一 个 物理 机 器 人 在 
每 两 个 行为 之 间 可 能 有 许多 秒 的 时 间 空 闲 。Q- 学 习 
在 每 个 行为 中 仅 执行 一 次 备份 操作 ， 没 有 充分 利用 
空闲 的 计算 时 间 。 

学 习 QQ@ 值 的 一 种 可 选择 的 方法 是 利用 数据 学 习 
一 个 模型 ， 即 Agent 利用 它 的 经 验 显 式 地 学 习 
Pl(s'|s，a) 和 RC(s，a，s')。 对 于 环境 中 执行 的 每 一 
个 动作 ，Agent WW RGAE HME. 
以 给 出 一 个 更 优 的 Q 函数 估计 。 

图 11-15 显示 了 一 个 一 般 的 基于 模型 的 增强 学 习 
器 。 与 其 他 的 增强 学 习 程 序 一 样 ， 它 记录 QLS, Al; 





controller SARSA, S, A, Y» a) 


Internal State; 
实 值 数组 QLS，4] 
实 值 数组 eLS，A] 
前 一 状态 s 
前 一 行为 a 


begin 
随机 初始 化 QCS, AJ 
对 于 所 有 的 s a, WAE els, a]=0 
观察 目前 的 状态 s 
利用 一 个 基于 Q 的 策略 选择 a 
repeat forever ; 
执行 行为 a 
观察 奖赏 r 和 状态 5' 
利用 一 个 基于 Q 的 策略 选择 a 
d<7+7Q[s', a’ ]—Qs, a] 
els, al*els, a]t+1 
fall all s”, a” 
Qs", a"J<Q[s", a”)+ade[s”, 2] 
i, at}eraels", a] 


t 
Ps 


axa r 
end-repeat 
end 








图 11-14 SARSA(Q) 


但 它 也 维护 一 个 “活力 ”模型 ， 记 为 T:; TEs, a, s TRR Agent 在 状态 s 执行 行为 a 并 结束 于 状 
A ;的 次 数 。 和 Dirichlet 分 布 一 样 ， 用 该 计数 与 先 验 计数 的 和 计算 概率 。 这 个 算法 假定 一 个 通 
用 的 先 验 概率 。 数 组 RELs，a，s ] 维 护 在 状态 s 执行 行为 a 并 结束 于 状态 * 时 接收 的 奖赏 。 

在 执行 完 每 一 个 动作 之 后 ，Agent 观察 奖赏 > 和 结果 状态 ; ; 接着 更 新 转移 -计数 矩阵 
T 和 平均 奖赏 值 尺 ;然后 利用 从 工 推导 而 来 的 更 新 概率 模型 和 更 新 奖赏 模型 异步 执行 多 步 


的 值 迭 代 操 作 。 该 算法 存在 3 个 未 定义 的 问题 : 


。 应 该 更 新 哪个 Q 值 ? 直观 地 ， 算 法 应 该 至 少 更 新 QLs，aj， 因 为 接收 到 了 更 多 的 
基于 转移 概率 和 奖赏 的 数据 。 基 于 此 ， 它 可 以 进行 随机 更 新 ， 也 可 以 确定 哪个 Q 
值 将 改变 最 多 。 值 改变 最 多 的 潜在 元 素 是 这 样 的 Qin, al, CRAMER 
经 改变 最 多 的 Q@ 值 (如 QLs;，as] 已 经 改变 最 多 ) 处 终止 。 这 可 以 通过 维护 一 个 所 


考虑 的 Q 值 的 优先 队列 来 加 以 实现 。 


。 在 两 个 行为 之 间 应 该 执行 多 少 步 异步 值 迭代 操作 ? Agent 应 该 持续 地 进行 异步 什 
迭代 操作 ， 直 到 必须 做 出 决策 或 获得 新 的 信息 。 图 11-15 假定 Agent 执行 某 动作 
之 后 等 待 一 个 新 观察 的 到 来 。 当 来 了 一 个 新 观察 ，Agent 就 尽快 地 执行 动作 。 存 
在 该 算法 的 一 些 变形 ,例如 Agent 在 观察 和 行动 的 同时 执行 循环 。 这 样 的 Agent, 
在 它 需 要 的 时 候 执 行动 作 ; 当 它 观察 到 新 信息 的 时 候 更 新 转移 和 奖赏 模型 。 


479 
? 
481 
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controller ModelBasedReinforementLearner(S, A, y, c) 
Inputs; 
S 是 状态 的 集合 
从 是 行为 的 集合 
7Y 是 折扣 率 
c 是 先 验 计数 
Internal State; 
实 值 数组 QUES, A] 
SAHA RUS, A, S] 
整数 数组 TLS, A, S] 
RÆ 
行为 a 
随机 初始 化 QLS，A] 
随机 初始 化 RLS, A, S] 
初始 化 TLS, A, S]=0 
观察 目前 的 状态 s 
选择 并 执行 行为 a 
repeat forever: 
观察 奖赏 + 和 状态 
选择 并 执行 行为 a 
TLs, a, s'j<-TEs, ay s']+1 


Res as #1eREs, a, 站 ARC Og] 
repeat 
选择 状态 s 并 执行 行为 由 
令 P= >) (TL) +a) +52) +0) 
2 


An a] >) Flos edt ene a; 552] + ymaxQLse a2 ]) 
49 "2 


until 获得 了 一 个 新 观察 





11-15 基于 模型 的 增强 学 习 器 


。 BBE RDS, A, S]A QLS，Aj 的 初 值 ? 一 旦 Agent 观察 到 一 个 特定 转移 
Cs, a, ) 的 奖赏 值 ， 它 就 使 用 针对 该 转移 所 接收 到 的 奖赏 的 平均 值 。 然 而 ， 对 于 
转移 ， 当 更 新 Q 的 时 候 ，Agent 需要 一 些 从 未 出 现 过 的 值 。 在 面 对 不 确定 性 的 时 
候 ， 如 果 采 用 “探索 ”的 优化 策略 ， 则 Agent 可 以 使 用 尽 可 能 大 的 奖赏 值 ( 记 为 
Rmax) 作 为 R 的 初始 值 ， 以 便 鼓 励 探索 。 而 在 值 迭 代 中 ， 将 Q 初 始 化 为 与 最 终 的 
Q 值 越 近 越 好 。 

图 11-15 的 算法 假定 所 有 转移 (ss，a，s 的 先 验 计数 是 相同 的 。 如 果 先 验 知识 表明 一 
些 转移 是 不 可 能 的 ， 抑 或 是 更 可 能 的 ， 则 先 验 计 数 应 该 是 不 一 样 的 。 

该 算法 也 假定 奖赏 值 依赖 于 初始 状态 、 行 为 和 最 终 状 态 。 而 且 假定 只 有 在 已 经 观察 到 
转移 真正 发 生 的 时 候 ， 才 知道 一 个 转移 4*，a，Y ) 的 奖赏 值 。 如 果 奖 赏 值 只 依赖 于 初始 状 
态 和 行为 ， 则 求 取 RLS，Aj] 的 效率 更 高 。 如 果 分 别 存在 行为 的 开销 和 进入 一 个 状态 的 奖 
赏 值 ， 且 Agent 能 够 单独 地 观察 这 种 开销 和 奖赏 ， 则 可 以 将 奖赏 函数 分 解 为 CLA] 和 
RLS]， 从 而 获得 更 高 的 学 习 效率 。 

比较 基于 模型 和 不 依赖 于 模型 的 增强 学 习 器 是 困难 的 。 通 常 ， 从 需要 的 经 验方 面 看 ， 
基于 模型 的 学 习 器 更 为 高 效 ( 需 要 的 经 验 更 少 )。 然 而 ， 不 依赖 于 模型 的 学 习 器 所 需 的 计算 
时 间 更 少 。 应 该 依据 获得 经 验 的 难 易 程 度 分 别 进 行 比较 。 
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11. 3.9 基于 特征 的 增强 学 习 


通常 进行 显 式 推理 的 状态 是 非常 多 的 。 与 依据 状态 进行 显 式 推理 不 同 的 选择 是 依据 特 
征 进行 显 式 推理 。 本 节 讨论 基于 Q RHI SS, ORR A TRAIT A 
征 的 线性 组 合 。 这 种 情形 是 最 简单 的 ， 并 且 工 作 良 好 。 然 而 ， 这 种 方法 需要 进行 谨慎 的 特 
征 选 择 ; 设计 者 需要 找 出 合适 的 特征 以 表示 Q 函数 。 这 通常 是 一 个 困难 的 工程 问题 。 
基于 线性 函数 逼近 的 SARSA 算法 

可 以 在 SARSA 中 用 特征 的 线性 函数 逼近 Q 函数 。 该 算法 利用 “在 策略 ”方法 SARSA 

的 原因 是 ，Agent 从 真正 遵循 的 策略 中 进行 奖赏 的 采样 (而 非 从 最 优 的 策略 进行 采样 )。 
存在 许多 获取 Q 函数 的 基于 特征 的 表示 方法 。 本 节 利 用 状态 和 行为 两 方面 的 特征 构建 
线性 函数 。 

假定 Fis s F, 是 状态 和 行为 的 数值 特征 ，F;(s，a) 是 状态 s 和 行为 a 的 第 i 个 特征 

的 值 。 这 些 特征 通常 是 二 元 的 ( 值 域 为 {0，1}), 但 也 可 以 取 其 他 值 。 它 们 将 被 用 于 表示 Q 
函数 ， 

Qzlssa) = wm + w F (ssa) + + w,F, (ssa) 

其 中 ， 可 二 (wo ，rwiy，……，w;) 是 权 值 数组 。 假 定 存在 一 个 额外 的 、 取 值 总 为 1 的 特征 Fo, 
则 与 其 他 权 值 相 比 ，ze 不 再 是 一 种 特殊 情况 。 

【 例 11-14] 在 例 11-8 所 示 的 网 格 游戏 中 ， 一 些 可 能 的 特征 如 下 : 

。 如 果 行 为 a 最 大 可 能 地 使 Agent 从 状态 s BARMERA HT. MPCs. a= 
1; 否则 Fics, a)=0. 

。 如 果 行 为 a 最 大 可 能 地 使 Agent MAR, M FCs, a)=1; 否则 Fics, a)=0, 

。 WIRTH a 最 大 可 能 地 使 Agent 朝 有 奖赏 的 地 方 移动 ， 则 FCs, a)=1. 

。 如 果 Agent 在 状态 s 被 损坏 ， 且 行为 a 将 它 移 向 修理 站 ， 则 Fi(s，a) 二 1。 

。 WẸ Agent MHA, ATA a 最 大 可 能 地 将 它 移 向 怪物 将 出 现 的 地 方 ，F; (s，a) 二 1; 
否则 FCG. a)=0. BF Gs, ORG, ace, (ARTA Agent 被 损坏 的 情形 
“Pal. 

。 如 果 Agent 在 状态 s RAH. WF Cs, D=1; 否则 FG, a)=0, 

。 如 果 Agent 在 状态 s 未 被 损坏 ， 则 FCs, D=1; 否则 FG, a)=0. 

。 如 果 Agent 被 损坏 ， 且 行为 a 的 前 方 存在 奖赏 ， 则 Fs(s，a) 二 1。 

。 如 果 Agent 未 被 损坏 ， 且 行为 a 的 前 方 存在 奖赏 ， 则 F(s, a)=1, 

。 如 果 在 状态 5 HP 位 置 中 存在 一 个 奖赏 ， 则 Fro Css a) BURA s HY x 值 ， 即 从 左 
侧 墙壁 到 存在 奖赏 的 位 置 P。 之 间 的 距离 。 

。 如 果 在 状态 s 的 Po 位 置 中 存在 一 个 奖赏 ， 则 Ful, OMR4—-z, Hh ec EAEN 
墙壁 到 存在 奖赏 的 位 置 P, 之 间 的 水 平 距 离 。4 一 zx 即 是 从 右 侧 墙壁 到 存在 奖赏 的 
ME P, 之 间 的 距离 。 

s Fi2(s5 a) 到 Fa (ss as Fy Fil Fy, UW, 不 同 的 地 方 在 于 存在 奖赏 的 位 置 和 四 个 
方向 至 墙壁 的 距离 的 不 同 组 合 。 对 于 奖赏 在 位 置 Po 的 情形 ， 应 该 考虑 与 墙壁 在 y 
方向 上 的 距离 。 

一 个 示例 性 的 线性 函数 是 


Q(s,a) = 2.0—1.0* F, (s,a)—0. 4 * F; (s,a) —1.3 * Fy(s,a) —0.5 * Fy(s,a)—1. 2% F; (s,a)—L6* FG, 
a) +3. 5» F,(s,a) +0.6* Fy (s,a) +0. 6* Fy (ssa) —0.0* Fy (s,a) + 1.0% Fy (ssa) + 


483 
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这 些 学 得 的 权 值 (保留 一 位 小 数 ) 就 是 下 述 算法 的 一 次 运行 所 得 到 的 结果 < 

SARSA 'PAMMIBR As, a, rs s, a') (Agent 在 状态 s 执行 了 行为 w， 获 得 奖赏 了 

和 到 达 状 态 * ， 然 后 决定 执行 行为 a )， 它 提供 新 的 估计 值 ~ 十 rQ(s'，a ) 以 更 新 Qs, a). 

该 经 验 可 以 用 作 线 性 回归 (linear regression) 的 一 个 数据 点 。 令 6=r 十 YQ(s',， als, a), 
并 利用 式 (7.2)， 则 权 值 w: 的 更 新 公式 如 下 : 


w: <— w + OF; (s,a) = 
1; controller SARSA—FA(F, y, 9) 


将 该 公式 包含 进 SARSA， 得 到 了 如 图 11-16 所 示 | 2。 nuts, 


的 算法 。 : 天 = (PR ，…，RE)， 特 征 的 集合 
可 以 利用 一 个 E 贪 心 函 数 来 选择 行为 a: y 和 所 [0，1]， 折 扣 因子 

Agent 以 概率 e 选择 一 个 随机 的 行为 ， 否 则 选 o g ATENE 

择 最 大 化 Qs(s，a) 的 行为 。 PEILEIR EÐUR D= lwes w, 
虽然 该 算法 易于 实现 ， 但 特征 工程 (fea- es rit 

ture engineering) ( 即 选择 哪些 特征 ) 并 非 易 事 。 Repeat 

线性 函数 必须 不 仅 要 表达 执行 的 最 优 行为 ， 还 交流 

要 表达 什么 特征 状态 是 有 用 的 信息 。 Be 
存在 该 算法 的 许多 变形 。 可 以 应 用 不 同 的 BOR rtyQe(s's a!) —Qels, a) 

MIE, HN mS REE AAR Ham |g 

数 的 决策 树 。 一 种 常见 的 变形 是 对 每 一 个 行为 

都 构造 一 个 单独 的 函数 ， 这 等 价 于 用 这 样 的 一 a 


19; until 结束 





PRR BI Q 函数 : 它 在 行为 上 进行 分 裂 ， 
然后 构造 线性 函数 。 除 此 之 外 ， 也 可 以 在 其 他 图 11-16 基于 线性 函数 逼近 的 SARSA 算法 
特征 上 作 分 裂 。 

可 以 将 线性 函数 允 近 与 其 他 方法 (例如 SARSAG) 、Q- 学 习 或 者 基于 模型 的 方法 ) 组 合 
在 一 起 。 注 意 ， 其 中 的 一 些 方法 具有 不 同 的 收敛 保证 和 不 同 的 性 能 水 平 。 

【 例 11-15] AIspace 网 站 上 有 该 算法 关于 例 11-8 所 示 游 戏 的 一 个 开源 实现 ， 使 用 的 
特征 如 例 11-14 所 示 。 尝 试 单 步 执行 该 程序 ， 尽 力 理 解 每 一 步 是 如 何 更 新 参数 的 ; RAS 
察 多 步 执 行 的 情况 。 考虑 利用 11. 3. 5 节 所 讨论 的 评估 准则 度量 学 习 的 性 能 。 设 法 搞 清 楚 
所 学 参数 值 的 含义 。 . a 


11.4 本 章 小 结 


。 期 望 最 大 化 是 一 种 学 习 带 有 隐藏 变量 (包括 类 别 为 隐藏 变量 的 情形 ) 的 模型 的 迭代 方法 。 

。 可 以 从 完全 数据 中 学 习 信念 网 络 的 概率 与 结构 。 概 率 可 由 计数 导出 ; 结构 可 通过 在 给 定数 据 的 条 
件 下 搜索 最 优 的 模型 而 学 得 。 

样本 中 的 缺失 值 通常 并 非 是 随机 缺失 的 。 研 究 这 些 值 缺失 的 原因 通常 是 重要 的 。 

马尔 可 夫 决 策 过 程 是 增强 学 习 的 一 种 合适 的 形式 化 表达 。 正 如 函数 QC(S，A) 所 表达 的 那样 ， 通 
常 的 做 法 是 学 习 在 某 个 状态 执行 每 个 动作 的 估计 值 。 

在 增强 学 习 中 ，Agent 应 该 在 利用 已 有 的 知识 和 探索 新 知识 之 间 进 行 折衷 。 

离 策略 学 习 ( 例 如 Q- 学 习 ) 方 法 学 习 最 优 策略 的 值 。 在 策略 学 习 ( 例 如 SARSA) 方 法 学 习 Agent 真 
正 执行 的 策略 (包括 探索 ) 的 值 。 

基于 模型 的 增强 学 习 区 别 学 习 状 态 转换 与 奖赏 模型 ， 它 源 于 在 给 定 模 型 的 条 件 下 做 什么 的 决策 理 
论 规划 。 
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11.5 参考 文献 及 进一步 阅读 


Fischer[1987] 以 及 Cheeseman, Kelly, Self, Stutz, Taylor 和 Freeman[1988] 介 绍 了 无 监督 学 习 ，。 
Duda 等 [2001] 以 及 Langley, Iba 和 Thompson[ 1992] 讨 论 了 贝 叶 斯 分 类 器 。Friedman 和 Goldszmidt 
L1996aj 讨 论 了 如 何 推 广 朴 素 贝 叶 斯 分 类 器 ， 使 其 允许 更 多 的 适当 的 独立 性 假设 。 

信念 网 络 的 综述 见 Heckerman[ 1999], Darwiche[ 2009], Koller 和 Friedman[ 2009]。 利 用 决策 树 进 
行 结构 学 习 见 Friedman 和 Goldszmidt[ 1996b|。 

增强 学 习 的 介绍 见 Sutton 和 Barto[1998] 以 及 Kaelbling, Littman 和 Moore[ 1996]. Bertsekas 和 
Tsitsiklis[1996] 研 究 了 函数 逼近 及 其 与 增强 学 习 的 关系 。 


11.6 习题 


11.1 考虑 如 图 11-1 所 示 的 无 监督 数据 : 
(a) 4 k=2 时 ，k- 均 值 算法 能 找 出 多 少 种 稳定 的 将 样本 指派 给 类 的 方法 ?提示 : 尝试 在 一 些 不 同 
的 初始 点 运行 算法 ， 同 时 考虑 什么 样 的 样本 指派 是 稳定 的 。) 不 要 将 类 标签 的 排列 视 为 不 同 的 
指派 。 
(b) 4R=3 时 ，k- 均 值 算法 能 找 出 多 少 种 稳定 的 将 样本 指派 给 类 的 方法 ? 
(c) 4k=4 时 ，k 均 值 算法 能 找 出 多 少 种 稳定 的 将 样本 指派 给 类 的 方法 ? 
(d) 为 什么 有 人 建议 在 这 个 例子 中 自然 的 类 别 个 数 为 3? 给 出 “自然 “的 类 别 个 数 的 定义 ， 并 利用 这 
些 数 据 验 证 该 定义 。 
11.2 假定 对 于 不 断 增 大 的 序列 值 运 行 & 均值 算法 ， 且 对 于 每 一 个 k， 算法 都 运行 多 次 以 搜寻 具有 全 局 
最 小 误差 的 样本 指派 。 是 否 可 能 存在 这 种 情况 : 对 于 一 些 & 而 言 ， 误 差 是 稳定 的 ; 而 后 性 能 却 大 
幅 提 升 ( 即 当 一 3、4、5 的 时 候 ，, 误差 几乎 相同 ， 而 当 ==6 的 时 候 ， 误 差 则 小 得 多 )? 如 果 可 能 ， 
给 出 一 个 例子 ; 否则 解释 原因 。 
11.3 给 出 一 个 无 监督 学 习 的 期 望 最 大 化 算法 (图 11-4)， 它 不 存储 数组 A， 而 是 为 M 步 重复 计算 合适 的 
值 。 每 一 次 迭代 只 需 扫 描 一 遍 数 据 集 。( 提 示 : 对 于 数据 集中 的 每 一 个 元 组 ， 更 新 所 有 相关 的 
M; 值 。) 
11.4 假定 一 个 进行 Q@- 学 习 的 Agent, RA HERPE a 和 折扣 率 y， 处 于 状态 34、 执 行动 作 7、 接 收 奖 
赏 值 3 和 结束 于 状态 65。 请 问 更 新 的 值 是 多 少 ? 给 出 其 表达 式 。( 越 具体 越 好 .) 
11.5 在 增强 学 习 中 ， 如 果 Agent 总 是 选择 最 大 化 Q 值 的 行为 ， 则 会 发 生 什 么 情况 ? 给 出 两 种 促使 
Agent 进 行 探 索 的 方法 。 
11.6 假定 进行 Q- 学 习 的 Agent 具有 折扣 率 y 和 步 长 ck， 且 正在 执行 一 个 E 贪 心 探索 策略 。 说 明 Q@ 学 习 
与 2.2.1 节 的 Agent 体系 结构 的 一 致 性 如 何 。 
(a) QJ Agent 的 信念 状态 由 哪 几 部 分 构成 ? 
(b) 知觉 是 什么 ? 
(c) Q- 学 习 Agent 的 功能 函数 是 什么 ? 
(d) QJ Agent 的 信念 状态 转移 函数 是 什么 ? 
11.7 对 于 如 图 11-12 所 示 的 随时 间 变 化 而 变化 的 累积 奖赏 值 曲线 图 ， 仅 当 平 衡 正 负 奖 赏 值 是 合理 行为 
的 时 候 ， 最 小 和 零 交叉 点 才 是 有 意义 的 统计 值 。 当 零点 并 非 是 合理 行为 的 恰当 定义 的 时 候 ， 应 该 
用 什么 值 蔡 换 这 些 统计 值 ? (提示 : 考虑 仅 存在 正 奖 赏 或 抽奖 赏 的 情形 。) 
11.8 对 于 例 11-8 所 示 的 游戏 ， 比 较 不 同 参数 设置 的 结果 。 特 别 地 ， 考 虑 下 述 情形 : 
(a) a 变化 ， QQ@ 值 初始 化 为 0. 0。 
b) a 变化 ，Q 值 初始 化 为 5.0。 
(c) we 取 0.1，Q 值 初始 化 为 0. 0。 
Cd) a 取 0.1，Q@ 值 初始 化 为 5.0。 


486 


487 


488 


322 PERT 学 习 与 规划 


11. 10 


11.11 


11. 12 


(e) 其 他 设置 。 
对 于 每 一 种 情形 ， 多 次 运行 程序 ， 比 较 下 列 值 的 分 布 : 最 小 值 、 零 交叉 点 、 含 有 探索 的 策略 
的 渐 近 斜率 和 不 含有 探索 的 策略 的 渐 近 和 斜率。 对 于 最 后 一 个 任务 ， 在 算法 收敛 之 后 ， 将 探索 参数 
设 为 100%， 再 多 次 运行 额外 的 步骤 。 
在 Q 学 习 中 , 考虑 4 种 不 同 的 步 长 a 取 值 (注意 ， 在 采用 变化 的 w 的 Q- 学 习 中 ， 每 一 个 “状态 - 行 
为 ?对 必须 有 不 同 的 人 值 ): 
G) a =1/k, 
Gi) ai=10/(9+R), 
GID m=0.1, 
Civ) 在 最 开始 的 10 000 步 中 , 4a =0.1; 接 下 来 的 10 000 步 中 , + a=0.01; PET Aaa ho 
步 中 ， 令 ww 一 0.001， 依 此 类 推 。 
回答 下 列 问题 : 
(a) 理论 上 ， 上 述 哪 些 情形 将 收敛 到 真实 的 Q@ 值 ? 
Ch) 实际 运行 ( 即 运行 合理 的 迭代 步 数 之 后 ) 的 结果 表明 哪些 情形 收 和 敛 到 真实 的 Q 值 ? 再 试 试 其 他 
领域 的 问题 ， 看 看 结果 怎样 。 
(c) 当 缓 慢 改 变 运 行 环 境 的 时 候 ， 结 果 将 如 何 ? 
假定 你 的 朋友 给 你 这 样 的 一 个 例子 : 其 中 SARSA CA) 看 似 给 出 了 不 符合 直觉 的 结果 。 在 该 例子 
中 ， 存 在 两 个 状态 A 和 B; 除了 进入 状态 A 有 一 个 奖赏 值 10 外 ,没有 其 他 的 奖赏 或 惩罚 有 两 
种 行为 left Alright, 它们 仅 在 状态 B 有 区 别 。 在 状态 BAT left 直接 进入 状态 A， 但 执行 right 
后 进入 状态 A 的 概率 很 小 。 有 基体 的 : 
* P(A|B，ieft)==1; 奖赏 值 是 10。 
。 P(A|B, right)=0.01; 奖赏 值 是 10。P(B|B，right) 二 0.99; 奖赏 值 是 0。 
* P(A|A, left)=P(A|A, right)=0.999, P(B|A, left)=P(B|A, right)=0.001。 这 表 
明 进 入 状态 B 的 “资格 迹 ” 将 与 零 充 分 接近 。 
* YY 和 义 均 取 0.9, a 取 0.4。 
假定 你 的 朋友 声称 在 该 例子 中 Q(X) 并 不 起 作用 ， 原 因 是 在 状态 B 执行 动作 right 的 “资格 迹 ” 
比 执行 动作 left 的 大 (奖赏 和 所 有 参数 均 取 相同 的 值 ;。 具 体 地 ， 执 行动 作 right 进入 状态 和 A 的 
“资格 迹 " 大 约 为 5, 但 执行 动作 Left 却 为 1。 因 此 ， 最 好 的 行为 是 在 状态 BTA right. Kit 
不 对 的 。 
你 的 朋友 错 在 哪里 ? 这 个 例子 说 明了 什么 ? 
在 基于 线性 函数 逼近 的 SARSA 算法 中 ， 如 果 运 用 线性 回归 最 小 化 7 十 YQa (s'，a') 一 Qs(s，a)， 将 
得 到 与 先前 不 同 的 结果 。 说 明 得 到 的 结果 是 什么 和 在 正文 中 描述 的 结果 是 否 更 可 取 。 
在 例 11-14 中 , 一 些 特征 是 完全 相关 的 (例如 Fs 和 Pr)。 这 些 相 关 的 特征 是 否 会 影响 表达 的 功能 ? 
是 否 会 影响 学 习 的 效率 7 
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这 是 一 个 具有 物理 结构 的 现实 世界 。 通 过 与 这 个 世界 的 巨 量 交互 ， 思 维 的 程序 已 经 得 
到 了 训练 ， 因 此 该 程序 包含 着 反映 了 该 世界 的 结构 的 代码 ， 并 知道 如 何 利用 这 些 代码 。 这 
些 代码 包含 了 该 世界 中 物理 对 象 的 表示 ， 并 表达 了 物理 对 象 间 的 交互 。 这 些 代码 多 为 模块 
化 的 …… 包 含 了 处 理 不 同类 型 对 象 的 模块 及 概括 了 许多 类 型 的 对 象 的 模块 …… 模 块 间 以 对 
现实 世界 做 镜像 的 方式 和 对 世界 的 演化 做 出 准确 预测 的 方式 进行 交互 …… 

你 利用 该 世界 的 结构 来 做 出 决策 、 执 行动 作 。 你 在 哪里 画 出 类 别 的 分 界线 一 类别 由 
单一 的 对 象 或 单一 的 对 象 类 组 成 一 一 由 你 的 思维 程序 来 决定 ， 即 你 的 思维 程序 做 了 这 个 分 
类 工作 。 这 个 分 类 不 是 随机 的 ， 而 是 反映 了 世界 的 一 个 简洁 描述 ， 特 别 地 ， 是 一 个 有 益 于 
利用 该 世界 的 结构 的 描述 。 





Eric B. Baum[ 2004, 169~170 页 | 


本 章 讨论 的 是 如 何 表 示 个 体 ( 事 物 和 对 象 ) 及 它们 之 间 的 关系 。 正 如 上 面 引 言 中 Baum 
建议 的 那样 ， 现 实 世 界 包 含 了 对 象 ， 而 我 们 想 要 的 是 这 些 对 象 的 简洁 表示 。 这 样 的 表示 可 
以 比 仅 使 用 特征 的 表示 方式 更 为 简洁 。 本 章 考虑 了 逻辑 表示 ， 并 给 出 了 一 个 详细 的 例子 以 
说 明 上 述 表 示 如 何 用 做 数据 库 的 没有 不 确定 性 的 自然 语言 接口 。 后 面 的 章节 介绍 本 体 及 符 
号 的 意义 、 关 系 学 习 和 概率 关系 模型 的 意义 。 


12.1 在 特征 之 外 利用 结构 


人 工 智 能 的 主要 经 验 之 一 就 是 成 功 的 Agent 利用 了 世界 的 结构 。 前 面 的 几 章 考虑 了 使 
用 特征 表示 的 状态 。 较 之 明确 地 表示 状态 ， 使 用 特征 来 表示 状态 更 为 简洁 ， 并 且 算 法 能 够 
使 用 这 种 简洁 性 。 不 过 ， 在 这 些 特征 中 通常 有 更 多 的 结构 ， 这 些 结构 可 用 于 表示 和 推理 。 
特别 地 ， 本 章 考 虑 了 如 下 方面 的 推理 过 程 : 
。 个 体 (individual) : 问题 域 中 的 事物 ， 它们 可 以 是 有 形 的 个 体 ， 如 人 和 建筑 物 ; 虚 
构 的 个 体 ， 如 独 角 兽 和 仙女 ; 或 是 抽象 的 概念 ， 如 课程 和 时 间 。 
。 关系 (relation): 关于 这 些 个 体 什么 为 真 。 这 意味 着 尽 可 能 地 通用 ， 包含 了 单一 个 
体 的 为 真 或 为 假 的 一 元 关系 ， 也 包括 多 个 个 体 间 的 关系 。 
[B 12-1] 在 例 5-5 中 ， 命 题 up_s.. up_s; 和 ok_ss 没有 内 部 结构 。 这 里 没有 关于 命 
fl wp_s; 和 up_s; 描述 的 是 同一 个 关系 的 概念 ， 不 过 说 明了 上 述 关系 联系 的 是 不 同 的 个 
体 ; 也 没有 说 明 up_s. 和 ok_ss 指 的 是 同一 个 开关 。 这 里 没有 个 体 与 关系 的 概念 。 
一 个 替代 的 方法 是 明确 地 表示 各 个 开关 个 体 5 、sz 、ss 和 属性 (或 关系 )up Mok. W 
用 这 个 表示 方法 ,“ 开 关 s WAR ERA pls). AET up 和 si 的 表示 后 ， 我 们 不 需 
要 一 个 单独 的 wp(si) 的 定义 。 可 以 用 一 个 二 元 关系 ， 如 connected_to， 来 联系 两 个 个 体 ， 
如 connected_to(w,+ 5)). < 
有 多 个 理由 来 说 明 为 什么 应 使 用 个 体 和 关系 而 不 是 仅 使 用 特征 : 
。 它 通 常 是 自然 的 表示 。 特 征 通 常 是 个 体 的 属性 ， 而 这 个 内 部 结构 在 转换 到 特征 时 
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就 丢失 了 。 

Agent 可 能 不 得 不 在 不 知道 有 哪些 个 体 或 者 有 多 少 个 体 的 情况 下 在 领域 中 建 模 ， 
因此 ， 也 无 从 知道 有 哪些 特征 。 在 运行 期 闻 ，Agent 在 发 现 特定 环境 中 的 个 体 时 
能 够 构建 其 特征 。 

Agent 能 够 做 一 些 推理 ， 而 不 必 关 心 特定 的 个 体 。 例 如 ， 它 可 以 获得 一 些 对 于 所 
有 个 体 都 适用 的 东西 ， 而 不 需 知道 个 体 的 具体 情况 。 或 者 ，Agent 有 可 能 断定 存 
在 一 些 有 特定 属性 的 个 体 ， 而 不 必 关 心 其 他 的 个 体 。 也 可 能 有 一 些 询问 ，Agent 
能 够 回答 这 些 询问 而 不 必要 区 分 每 一 个 体 。 

个 体 的 存在 可 以 依赖 于 动作 ， 也 可 以 是 不 确定 的 。 例如， 在 制造 业 中 的 规划 中 ， 
是 否 有 一 个 工作 组 件 可 能 依赖 于 许多 其 他 的 子 工作 组 件 且 这 些 组 件 装配 正确 ; 这 
些 组 件 中 的 一 部 分 可 能 依赖 于 Agent 的 动作 ， 而 另 一 些 可 能 不 在 Agent 的 控制 之 
下 。 因 此 ，Agent 可 能 不 得 不 在 缺少 对 特征 的 了 解 或 不 知道 会 有 哪些 特征 的 情况 
下 执行 动作 。 

通常 ，Agent 的 推理 涉及 无 限 多 的 个 体 ， 因 此 也 涉及 无 限 多 的 特征 。 例 如 ， 如 果 
个 体 是 句子 ， 则 Agent 可 能 不 得 不 仅 推理 非常 有 限 的 句子 集合 (例如 ， 仅 包括 人 们 
可 以 说 的 句子 ， 或 者 那些 可 能 产生 的 合理 的 句子 )， 即 使 可 能 的 句子 也 是 无 限 的 
(从 而 ， 特 征 也 是 无 限 的 )。 


12.2 符号 与 语义 


第 5 章 是 关于 符号 的 推理 ， 这 些 符 号 表示 了 命题 。 在 本 节 ， 我 们 扩展 语义 用 于 个 体 和 
关系 的 推理 。 符 号 可 用 于 表示 个 体 或 关系 。 我 们 仍然 使 用 命题 ; 此 时 ， 原 子 命题 有 关于 关 
系 和 个 体 的 内 部 结构 。 


图 12-1 说 明了 带 有 个 体 和 关系 的 语义 的 一 般 思 想 。 对 于 符号 ,知识 库 的 设计 者 对 其 


赋予 了 意义 。 知 识 库 的 设计 者 知道 符号 kim, r123 和 in 在 问题 域 中 指 代 什 么 ， 并且 提供 
了 一 个 用 计算 机 的 表示 语言 编写 的 句子 组 成 的 知识 库 。 这 些 句子 对 于 设计 者 是 有 意义 的 。 
他 能 够 使 用 这 些 符 号 提出 问题 ， 而 这 些 符号 代表 了 他 所 赋予 的 特定 含义 。 计 算 机 接收 到 这 
些 句子 和 问题 ， 然 后 计算 出 答案 。 计 算 机 不 知道 这 些 符 号 的 含义 。 然 而 ， 为 这 些 符号 赋予 
了 含义 的 人 能 够 使 用 与 这 些 符 号 关联 的 含义 在 问题 世界 中 解释 计算 机 给 出 的 答案 。 


in(kim, r123) 
part of(r123, cs building) 
in(X, Y)— 
part_of(Z, Y Y 
in(X, Z) 


Vv 





-> in(kim, cs_building) 


图 12-1 语义 的 角色 。 符 号 的 含义 在 用 户 的 头脑 里 。 计 算 机 处 理 输入 的 符号 ， 并 输出 符号 。 
输出 的 符号 可 由 用 户 根据 其 赋予 这 些 符号 的 含义 来 解释 
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存在 于 人 脑 之 中 的 符号 与 这 些 符号 所 指称 的 个 体 和 关系 的 映射 称 为 概念 化 (conceptu- 
alization)。 在 本 章 ， 我 们 假设 概念 化 存在 于 用 户 的 头脑 中 ， 或 者 是 非 正式 的 备注 。 使 概念 
化 变 得 明确 是 形式 本 体 的 作用 。 

根据 这 个 观点 ， 正 确 答案 的 定义 独立 于 计算 出 答案 的 方式 。 知 识 库 的 正确 性 由 语义 来 
定义 ， 面 不 是 通过 一 个 用 于 证 明 查 询 的 特定 算法 来 定义 。 只 要 推理 忠实 于 语义 ， 可 以 为 提 
高 效率 而 优化 证 明 程 序 。 这 种 含义 与 计算 的 分 离 使 得 Agent 在 优化 求解 性 能 的 同时 仍然 保 
持 正 确 性 。 


12.3 Datalog: 一 个 关联 规则 语言 


本 节 扩 展 了 命题 的 限定 子 句 语言 的 语法 。 对 于 谓词 符号 ， 该 语法 基于 标准 的 数学 符 
号 ， 不 过 其 中 的 变量 遵循 Prolog 的 惯例 。 
Datalog 的 语法 (syntax) 给 定 如 下 ， 其 中 字 (word) 是 由 字母 、 数 字 或 下 划 线 ("“") 组 成 
的 序列 : 
。 逻辑 变量 (variable) 是 以 大 写字 母 或 下 划 线 开头 的 字 。 
例如 X, Room, B4, Raths 和 The big_guy 均 为 变量 。 
逻辑 变量 与 代数 变量 或 随机 变量 不 同 。 
。 常量 (constant) 是 一 个 以 小 写字 母 开 头 的 字 ， 或 者 是 一 个 数字 或 字符 串 。 
。 谓词 符号 (predicate symbol) 是 以 小 写字 和 母 开头 的 字 。 常 量 和 谓词 符号 通过 它们 在 
知识 库 中 的 上 下 文 来 识别 。 
Him, kim, r123, f~ grandfather 和 borogroves 可 以 是 常量 也 可 以 是 谓词 符号 ， 这 
依赖 于 它们 的 上 下 文 ; 725 是 常量 。 
。 项 (term) 要 么 是 一 个 变量 ， 要 么 是 一 个 常量 。 
in X, kim, cs422、 mome Ñ Raths 均 可 为 项 。 
。 我 们 扩展 原子 符号 (atom symbol) (或 简单 地 称 为 原子 ) 的 定义 ， 其 形式 如 卢 或 
五 (和 1). 其 中 是 一 个 谓词 符 导 ， 而 每 一 个 十 是 一 个 项 。 每 一 个 是 上 述 
谓词 的 论 元 (argument)。 
fil til. teaches(sue, cs422)、 in(kim, r123), sunny, father(bill, Y), happy(C) 和 和 
outgrabe(momes Raths) 均 可 为 原子 。 从 原子 outgrabe(mome, Rath) H E Fic. RNA 
if outgrabe 是 一 个 谓词 符号 ， 而 mome 是 一 个 常量 。 
这 里 ， 限 定子 名、 规则 、 查 询 和 知识 库 的 概念 与 命题 的 限定 子 句 相同 不 过 原子 的 定 
义 有 所 扩展 。 这 些 概 念 的 定义 重复 如 下 : 
。 体 (body) 是 一 个 原子 或 原子 的 合 取 。 
。 限定 子 句 (definite clause) 是 一 个 原子 ( 称 为 原子 子 句 (atomic clause)), 或 者 具有 
asb 的 形式 ( 称 为 规则 (Crule))， 甚 中 a 称 为 头 ， 是 一 个 原子 ， 而 是 一 个 体 。 我 
们 用 一 个 句点 表示 子 句 的 结 来 。 
。 知识 库 (knowledge base) 是 一 个 限定 子 句 的 集合 ，。 
。 查询 (query) 的 形式 如 ask b, 其 中 65 是 一 个 体 。 
。 表达 式 (expression) 是 一 个 项 、 原 子 、 限 定子 名 或 是 一 个 查询 。 
在 我 们 的 例子 中 ， 注 释 将 遵循 Prolog 的 惯例 ， 即 从 一 个 “%” 开 始 到 一 行 的 结束 均 为 
注释 ， 它 们 会 被 系统 忽略 。 
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与 传统 程序 设计 语言 的 关系 


本 章 介 绍 的 逻辑 语义 的 概念 应 该 与 传统 的 程序 设计 语言 (如 Fortran, C++, Lisp 或 
Java) 中 的 过 程 化 语义 做 对 比 。 上 述 程序 设计 语言 的 语义 明确 了 语言 结构 的 含义 ， 而 计算 
机 将 根据 规定 的 程序 执行 计算 。 这 一 点 与 这 里 介绍 的 证 明理 论 更 为 接近 。 刘 辑 语义 为 确定 
符号 与 世界 的 关系 提供 一 种 途径 ， 也 提供 了 一 种 程序 的 结果 与 如 何 计 算出 该 结果 相互 独立 
的 途径 。 

语义 和 推理 理论 的 定义 对 应 于 Tarskian 语义 和 数学 逻辑 (logic) PHEAHRA. E 
辑 对 许 我 们 定义 知识 ， 而 不 管 知 识 是 如 何 使 用 的 。 只 要 知识 库 的 设计 者 或 用 户 知道 其 中 知 
识 的 含义 ， 就 可 以 验证 知识 的 正确 性 。 人 们 可 以 辩论 用 语言 写 出 的 句子 是 和 否 为 真 ， 并 通过 
观察 世界 来 验证 其 陈述 。 相 同 的 语义 可 以 用 来 确定 实现 的 正确 性 。 

个体 的 概念 与 在 面向 对 象 语言 (object oriented language), (4 Smalltalk、C++ 或 Java) 
中 对 象 的 定义 类 似 。 主 要 的 区 别 是 面向 对 象 和 语言 中 的 对 象 是 计算 的 对 象 ， 而 不 是 真实 的 
物理 对 象 。 在 面向 对 象 语 言 中 ， 一 个 “person” 对 象 是 一 个 人 (Person) 的 表示 ， 它 不 是 一 
个 真实 的 人 。 然 而 ,在 AI 中 讨论 的 表示 和 推理 系统 中 ， 一 个 个 体 “person” 可 以 表示 一 
个 真实 的 人 。 在 面向 对 象 语言 中 ， 对 象 间 相 互 发 送 消息 。 从 逻辑 方面 看 ， 我 们 不 仅 想 与 
对 象 交 互 ， 我 们 还 想 对 它们 做 出 推理 。 我 们 可 能 希望 能 够 预测 一 个 对 象 将 会 做 什么 ， 而 
不 是 让 对 象 做 一 件 事 然 后 观察 它 做 了 什么 。 我 们 可 能 希望 根据 观察 到 的 行为 来 预测 对 象 
的 内 部 状态 ,例如 在 诊断 病人 时 的 情况 。 我 们 甚至 想 推 理 、 预 测 个 体 的 行为 ， 而 该 个 体 
可 能 试图 故意 隐藏 信息 ， 并 上 且 不 想 让 我 们 知道 它 做 了 什么 。 例 如 ， 考 虑 一 个 “person” 对 
KR: 尽管 可 以 与 该 人 进行 一 些 交 互 ; 但 我 们 仍然 常常 对 许多 信息 一 无 所 知 。 因 为 我 们 不 
能 一 直 询 问 他 来 获得 这 些 信息 (他 可 能 也 不 知道 或 者 不 想 告 诉 我 们 )， 所 以 我 们 需要 关于 
该 个 体 的 信息 的 一 些 外 部 表示 。 与 一 个 椅子 或 一 种 疾病 的 交互 更 加 困难 ， 但 我 们 仍然 希 
望 对 它们 做 些 推 理 。 

许多 程序 设计 语言 都 有 一 些 处 理 设计 的 对 象 的 设施 ， 甚至 可 能 有 一 个 单一 的 目标 。 便 
如 ,在 Java 中， 对象 不 得 不 适应 单一 的 类 继承 机 制 ， 而 现实 中 的 个 体 可 能 有 多 种 角色 ， 
属于 多 种 类 别 ; 正 是 这 些 类 间 的 复杂 的 交 豆 确定 了 它们 的 行为 。 知 识 库 的 设计 者 可 能 事先 
不 知道 这 些 类 将 会 如 何 交互 。 


【 例 12-2) 下 面 是 一 个 知识 库 : 

inCkim,R)<-teaches(kim.cx422) A inles422. R) 

grand father(sam,X)-~— father(sam.Y) N parent(Y .X) 

slithy(toves)~-mimsy À borogroves N outgrabeCmome.Raths) 

RHE FX. kim, cs422, sam. toves 和 mome 都 是 常量 ; in, teaches. grandfather. 
father, parent, slithy, mimsy, borogroves 和 outgrabe 都 是 谓词 符号 ; 而 Xs Y 和 Raths 都 
是 变量 。 

前 两 个 关于 Kim 和 Sam 的 子 句 可 能 有 一 些 直观 的 意义 ， 即 使 我 们 还 没有 为 限定 子 句 语 
言 中 的 句子 的 含义 明确 提供 任何 形式 上 的 说 明 。 然 而 ， 如 果 不 考虑 助 记 符 提供 的 暗示 信息 ， 
对 计算 机 市 言 ， 前 两 个 子 句 并 不 比 第 三 个 有 更 多 的 意义 。 含 义 仅仅 通过 语义 来 表达 。 < 

如 果 一 个 表达 式 不 含有 任何 变量 ， 则 它 是 基 (ground) Hh. PM, teaches ( fred, 
cs322) 是 一 个 基 表 达 式 .但 teaches(Prof ，Couse) 不 是 一 个 基 表 达 式 。 

在 下 一 节 定 义 了 语义 。 我 们 首先 考虑 基 表 达 式 ， 然 后 扩展 语义 以 包含 变量 。 
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12.3.1 Æ Datalog 的 语义 


给 出 Datalog 的 语义 的 第 一 步 是 给 出 基 的 情况 下 (不 含 变量 的 情况 下 ) 的 语义 。 

解释 (interpretation) 是 一 个 三 元 组 T==<D, $, r), Hh 

。 中 是 一 个 称 为 域 (domain) 的 非 空 集合 。DD 的 元 素 称 为 个 体 (individual) 。 

。 % 是 一 个 为 每 一 个 常量 指派 了 一 个 五 中 的 元 素 的 映射 。 

。 xt 是 一 个 为 每 一 个 4 元 谓词 符号 指派 了 一 个 从 D" 到 {zrue，false} 的 函数 的 映射 。 

$ 是 一 个 从 和 名字 映射 到 域 中 的 个 体 的 函数 。 称 常量 c 指示 (denote) 了 个 体 $C). AE, 
< 是 一 个 符号 ， 而 $c) 可 以 是 任何 事物 : 可 以 是 一 个 真实 的 物理 对 象 ， 如 一 个 人 或 一 种 病 
毒 ; 可 以 是 一 个 抽象 的 概念 ， 如 一 个 课程 、 爱 或 者 数字 2， 甚至 是 一 个 符号 。 

x(p) 指 示 了 元 谓词 符号 p 对 于 每 一 个 体 的 n 元 组 是 否 为 真 或 为 假 。 如 果 谓 词 符号 p 
没有 论 元 ， 那么 x(z2) 或 者 为 真 或 者 为 假 。 因 此 ， 对 于 没有 论 元 的 谓词 符号 ， 其 语义 就 退 
化 为 命题 的 限定 子 句 的 语义 。 

LB 12-3) 考虑 由 下 面 三 种 位 于 桌子 上 的 物体 构成 的 世界 ， 


< FB S 


以 上 述 的 方式 来 画 出 物体 是 因为 它们 是 世界 中 的 物体 ， 而 不 是 符号 。 洋 是 一 把 剪刀 ， 
全 是 一 部 电话 ， 护 是 一 支 铝 笔 。 


假设 在 我 们 的 语言 中 ， 它 们 对 应 的 常量 为 phone、pencil 和 telephone。 我 们 有 谓词 
noisy 和 eft_of。 假 设 谓词 noisy 是 一 个 一 元 谓词 ( 它 有 一 个 论 元 )，lLeft_of 是 一 个 二 元 谓 
词 ( 它 有 两 个 论 元 )。 

一 个 表示 了 桌子 上 的 物体 的 解释 是 : 

。 D=({x<, T, &} 

。 $(phone)=B, $( pencil) =œ, $ltelephone) =T 

。 x(noisy): | (3<) false| (B) true 








(><, ><) false| (<, BH) true | (<<, BQ) true 
a(left_of): | (R, *<) false | (BB, T) false| (Œ, &) true 
(&, &<) false | (&, BW) false | (®, &) false 
因为 noisy 是 一 个 一 元 谓词 ， 所 以 它 只 处 理 一 个 个 体 ， 并 针对 每 一 个 个 体 有 一 个 真 值 。 
因为 left_of 是 一 个 二 元 谓词 ， 它 处 理 一 对 个 体 ， 并 且 在 该 对 个 体 的 第 一 个 元 素 位 于 
第 二 个 元 素 的 左边 时 取 值 为 真 。 因 此 ，x(ieft_of)((3<， 宫 ))= 二 true， 因 为 剪刀 在 电话 的 
左边 ; nlleft o) CAS, &))= false, 因为 铅笔 不 在 其 自身 的 左边 。 
请 注意 吃 是 世界 中 的 物体 的 集合 。 关 系 处 在 该 世界 中 的 物体 之 间 ， 而 不 是 在 这 些 物体 


的 名 字 之 间 。 由 于 上 指定 phone 和 telephone 指向 同一 件 物体 ， 所 以 在 这 个 解释 下 ， 对 于 
它们 的 相同 陈述 均 为 真 。 


【 例 12-4] 考虑 图 12-1 的 一 个 解释 。 

DD 是 一 个 有 4 个 元 素 的 集合 : Kim、 房 间 123(r123)、 房 间 023(r023) 和 CS 大 楼 (CS 
building)。 这 不 仅 是 4 个 符号 的 集合 ， 而且 是 包括 了 真实 的 人 、 真 实 的 房间 和 真实 的 大 楼 
的 集合 。 很 难 描述 这 个 集合 ， 幸 运 的 是 ， 你 永远 也 不 必 真 的 描述 它们 。 为 记 住 它们 的 含义 
并 把 该 含义 传达 给 另 一 个 人 人， 知识 库 的 设计 者 通常 要 通过 指定 物理 个 体 或 描绘 它们 ( 正 像 
在 图 12-1 中 那样 ) 并 通过 自然 语言 来 描述 它们 的 方法 来 描述 D, pAr. 
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其 中 的 常量 为 kim, r123, r023 和 cs_building。 映 射 $ 使 用 灰色 的 、 从 每 一 个 常量 指 
向 图 12-1 世界 中 的 物体 的 边 来 定义 。 

谓词 符号 为 person, in 和 part_of。 这 些 谓词 的 含义 就 是 图 中 的 边 所 传达 的 意思 。 

因此 ， 叫 Kim 的 人 在 房间 x123， 同 时 也 在 CS 大 楼 里 ， 并 且 它 们 是 关系 in 的 唯一 实 
例 (该 关系 为 真 ;。 类 似 的 ， 房 间 r123 和 房间 r023 是 CS 大 楼 的 一 部 分 ， 除 此 之 外 ， 在 这 
个 解释 中 不 存在 别 的 为 真 的 part_of 关系 。 

需要 强调 的 是 ，D 中 的 元 素 是 真实 的 物理 个 体 ， 而 不 是 这 些 个 体 的 名 字 。 名 字 kim 不 
在 名 字 r123 中 ， 相 对 的 ，kirm 指示 的 那个 人 在 r123 指示 的 那个 房间 中 。 < 

在 一 个 解释 中 ， 每 一 个 基 项 指 代 了 一 个 个 体 。 常量 c 指 代 的 解释 T 中 的 个 体 表示 
Fie (c) 。 

在 一 个 解释 中 ,一 个 基 原 子 的 取 值 要 么 为 真 要 么 为 假 。 在 解释 了 中 ， 如 果 K s 
bD Struk y 是 项 所 指 代 的 个 体 );， 则 原子 pn. wo WR: 否则 为 假 。 

【 例 12-5) 在 例 12-4 中 的 解释 下 ， 原 子 in(kim，r123) 为 真 ， 因 为 kim 所 指 代 的 人 的 
确 在 >123 ATR RY ele. ASH. person(kim) AH. part_of(r123, cs_building) th 
HR. JAF in(ces_building, r123) person(r123) 在 上 述 解 释 下 为 假 。 < 


12.3.2 解释 变量 


当 一 个 变量 出 现在 一 个 子 名 中 时 ， 该 子 句 在 一 个 解释 下 为 真 的 条 件 是 对 于 变量 的 所 有 
可 能 取 值 该 子 句 均 为 真 。 在 子 句 作用 域内 ， 称 变量 是 全 称 量化 (universally quantified) H. 
如 果 变 量 X 出 现在 子 句 C P, WE C 在 解释 下 为 真 就 意味 着 C 为 真 且 与 X 指 代 的 是 域 中 
的 哪 一 个 体 无 关 。 

为 形式 地 定义 变量 的 语义 ， 一 个 变量 指派 (variable assignment)p 是 一 个 从 变量 集合 到 
WD 的 函数 。 因 此 ， 一 个 变量 指派 就 为 每 一 个 变量 指定 了 域 中 的 一 个 元 素 。 给 定 汉 和 一 个 
变量 指派 gp， 每 一 个 项 都 指示 了 域 中 的 一 个 个 体 。 如 果 指 定 的 项 是 一 个 常量 ， 则 其 指 代 的 
个 体 由 多 给 出 。 如 果 指 定 的 项 是 一 个 变量 ， 则 其 指 代 的 个 体 由 po 给 出 。 给 定 一 个 解释 和 一 
个 变量 指派 ， 根 据 前 面 的 定义 ， 每 一 个 原子 非 真 即 假 。 类 似 的 ， 给 定 一 个 解释 和 一 个 变量 
指派 ， 每 一 个 子 句 均 非 真 即 假 。 

一 个 子 句 在 一 个 解释 下 为 真 ， 如 果 该 子 句 对 于 所 有 的 变量 指派 均 为 真 。 这 称 为 全 称 量 
化 。 而 变量 则 称 为 在 子 句 作 用 域内 是 全 称 量化 的 。 因此， 在 一 个 解释 中 一 个 子 句 为 假 就 意 
味 着 存在 一 个 变量 指派 ， 在 该 指派 下 子 句 为 假 。 变 量 的 作用 域 是 整个 子 句 ， 这 意味 着 对 于 
一 个 子 句 的 所 有 实例 ， 变 量 指派 都 是 相同 的 。 

【 例 12-6] F4 

part_of(X ,Y)<in(X.Y) 

在 例 12-4 的 解释 中 为 假 ， 因 为 在 久 指 代 Kim MY 指 代 房间 xr123 这 一 指派 下 ， 子 句 的 体 
为 真 ， 而 子 名 的 头 为 假 。 子 句 

in(X,Y)<-part_of(Z,Y) \ in(X,Z) 

为 真 ， 因 为 在 任何 变量 指派 下 ， 子 句 的 体 和 头 均 为 真 。 E] 

逻辑 结论 的 定义 见 5. 1. 2 节 ， 如 果 基 子 句 体 g 在 KB 的 每 一 个 模型 下 为 真 ， 则 称 g 为 
KB 的 逻辑 结论 (logical consequence), iW KB Fe. 
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【 例 12-7】 假设 知识 库 KB 为 

in(kim,r123) 

part_of (rl23,cs_ building) 

in(X ,Y)<— 

part_of(Z,Y)N 
in(X,Z) 

例 12-4 中 定义 的 解释 是 KB 的 一 个 模型 ， 因 为 在 该 解释 下 ， 每 一 个 子 句 均 为 真 。 

KB 鼎 in(kim，r123)， 因 为 这 一 点 已 明确 地 在 知识 库 中 陈述 。 如 果 在 一 个 解释 下 KB 
中 的 每 一 个 子 句 均 为 真 ， 那么 in(kim，r123) 在 那个 解释 下 必 为 真 。 

KBt£intkim, r023), fi] 12-4 中 定义 的 解释 是 KB 的 一 个 模型 ， 在 该 模型 中 inlkim, 
r023) 为 假 。 

KB part_of (r023, cs_building). SE FE] 12-4 的 解释 下 part_of (r023, cs_ 
building) HK. {AVE KB 中 存在 着 另 一 个 模型 ， 在 该 模型 中 part_of(r023. cs_building) 
为 假 。 特 别 地 ， 对 于 类 似 于 例 12-4 中 的 解释 的 解释 ， 其 中 

x part_of)(( $7023) pes building))) = false 
是 KB øA, CEE part_of(r023. cs_building) Wik. 

KB Fintkim, cs_building),. WRM IP KB 中 的 子 句 为 真 ， 则 inlkim, cs_ 
building) -Æ AK; 否则 就 会 存在 一 个 实例 使 得 KB 中 的 第 三 个 子 句 在 解释 工 下 为 假 
这 与 T 是 KB 的 一 个 模型 相 了 矛盾 。 < 

请 注意 语义 处 理 出 现在 子 句 体 ( 而 不 是 子 句 头 ) 中 的 变量 的 方式 (参见 例 12-8) 。 

【 例 12-8) 在 例 12-7 中 ， 人 定义 in 的 子 句 中 的 变量 了 在 子 句 水 平 上 是 全 称 量 化 的 ; A 
此 ， 对 于 所 有 的 变量 指派 ， 子 句 均 为 真 。 考 虑 X pac. Y PUE c 的 情况 。 子 句 

ine,” sc )<— 

part_of(Z.c2) N\ 

inte, +Z) . 
对 于 Z 的 所 有 变量 指派 均 为 真 。 如 果 存 在 一 个 Z 的 变量 指派 c3， 使 得 part_of(Z. cz) Nin 
(c1，2Z) 在 一 个 解释 下 为 真 ， 那么 in(c1，ci) 在 该 解释 下 必 为 真 。 因此， 你 可 以 将 例 12-7 
的 最 后 一 个 子 句 读 作 * 对 于 所 有 的 X 和 所 有 的 Y， 如 果 存 在 一 个 Z 使 得 part_of(Z， YO A 
in(X, DAH. Win(X, MAR”. < 

如 果 我 们 希望 使 量化 更 加 明确 ， 可 写 为 YX p(X), 可 读 作 "对 于 所 有 的 X, pX”, 
其 含义 是 对 于 X 的 每 一 个 变量 指派 P(X) 为 真 。 对 于 X 的 某 些 变量 指派 p(X) 为 真 的 情况 
FURAN p(X). 读 作 “存在 尺 使 得 p(X)”。XX 被 称 为 存在 量化 的 变量 (existentially quan- 
tified variable), 

规则 P(X)<-Q(X，Y) 的 含义 是 

VXVYCPCX)+Q(X,.Y)) 

它 等 价 于 

Y X(PCO+ 3Y Q(X,Y)) 

因此 ， 仅 出 现在 体 中 的 自由 变量 在 体 的 作用 域 中 是 存在 量化 的 。 

有 的 情况 下 ,我 们 会 对 于 一 些 奇 异 的 事情 谈论 子 名 是否 为 真 ， 而 这 些 情况 是 没有 意义 的 。 

【 例 12-9) 考虑 下 面 的 子 名 

in€cs422 ,L006) <— 


part_of (csd22,sky) A 





in(skv.iove) 
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其 中 ，cs422 指 代 一 个 课程 ，liowe 指 代 一 个 抽象 的 概念 ， 而 sky 指 代 天 空 。 这里， 根据 一 
的 真 值 表 ， 在 上 述 特 定 的 解释 下 ， 子 句 没 有 意义 但 值 为 真 ， 因 为 在 上 述 的 解释 里 子 句 的 右 
边 部 分 为 假 。 < 

只 要 头 是 无 意义 的 ， 体 也 会 是 无 意义 的 ， 因 此 该 规则 就 永远 不 能 用 来 证 明 任 何 无 意 
义 的 东西 。 在 检查 一 个 子 句 是 否 为 真 时 ， 你 只 需 考 虑 子 句 的 体 为 真 的 情况 。 当 体 为 假 时 
子 句 恒 为 真一 一 利用 这 个 规则 可 简化 语义 ， 且 不 会 导致 任何 问题 ， 即 使 子 句 没有 任何 

人 类 的 语义 学 观点 

语义 的 形式 描述 没有 告诉 我 们 语义 为 什么 是 有 意思 的 ， 也 没有 告诉 我 们 它 如 何 成 为 构 
建 智能 系统 的 基础 。 使 用 逻辑 背后 的 基本 想法 是 : 当知 识 库 的 设计 者 想 要 描述 一 个 特定 的 
世界 时 ， 他 们 可 以 选择 那个 世界 作为 一 个 特定 的 解释 (intended interpretation)， 并 针对 该 
解释 选择 符号 的 准确 含义 ， 然 后 写 出 子 句 ， 表 示 出 在 那个 世界 中 为 真 的 东西 。 当 系统 计算 
出 知识 库 的 一 个 逻辑 结论 时 ， 知 识 库 的 设计 者 或 用 户 能 够 根据 特定 的 解释 来 解释 这 个 结 
论 。 因 为 这 个 特定 的 解释 是 一 个 模型 ,是 一 个 逻辑 结论 在 所 有 的 模型 中 均 为 真 ， 所 以 逻辑 
结论 在 这 个 特定 的 解释 中 必 为 真 。 - 

通常 ， 为 讨论 的 世界 设计 一 个 表示 及 该 表示 如 何 适应 形式 语义 的 方法 为 : 

第 一 步 : 选择 要 表示 的 任务 的 域 或 世界 。 它 们 可 以 是 现实 世界 的 某 些 方面 (例如 ， 大 
学 里 的 课程 结构 和 学 生 ， 或 一 个 特定 时 间 的 实验 室 环 境 )、 某 些 虚构 的 世界 (如 爱丽 丝 梦 游 
仙境 中 的 世界 ， 或 一 个 开关 故障 时 的 用 电 环 境 的 状态 ) ， 或 一 个 抽象 的 世界 (如 数 与 集合 的 
世界 ) 。 在 这 个 世界 中 ， 记 域 D 为 所 有 你 希望 能 够 引用 或 推理 的 个 体 或 事物 的 集合 。 另 外 ， 
选择 要 表示 的 关系 。 

第 二 步 : 将 描述 语言 中 的 常量 与 世界 中 你 想 要 命名 的 个 体 建 立 联 系 。 对 于 中 的 每 一 
个 你 想 要 通过 名 字 引 用 的 元 素 ， 均 指派 语言 中 的 一 个 常量 。 例如， 你 可 能 选择 名 字 “kinzi” 
来 指 代 一 个 特定 的 教授 ， 名 字 “cs322” 来 指 代 特定 的 AI 人 门 课程 ， 名 字 “trwo” 来 指 代 数字 1 
后 面 的 数 ， 名 字 “red” 来 指 代 停 止 信号灯 的 颜色 。 每 一 个 名 字 都 指 代 了 世界 中 对 应 的 个 体 。 

第 三 步 : 对 于 每 一 个 你 想 表 达 的 关系 都 关联 语言 中 的 一 个 谓词 符号 。 每 一 个 nr 元 谓词 符 
号 指示 了 一 个 从 D" 到 {true，false} 的 函数 ,该 函数 指明 上 述 关 系 在 D' 的 一 个 子 集 上 为 真 。 
例如 ， 有 两 个 论 元 (一 个 教师 和 一 个 课程 ) 的 谓词 符号 “teaches” 可 能 对 应 于 一 个 二 元 关系 ， 该 
关系 在 第 一 个 论 元 指 代 的 个 体 讲 授 了 第 二 个 论 元 指 代 的 课程 时 为 真 。 这 些 关 系 不 必 为 二 元 
的 。 它 们 可 以 有 任意 个 数 ( 零 个 或 多 个 ) 的 论 元 。 例 如 ，"is_red” 可 能 是 只 有 一 个 论 元 的 谓词 。 

符号 与 它们 的 含义 的 关联 构成 了 一 个 特定 的 解释 。 

第 四 步 : 现在 写 下 在 特定 的 解释 中 为 真 的 子 句 。 这 通常 被 称 为 域 的 公理 化 (axiomatizing)， 
其 中 给 出 的 子 句 是 域 中 的 公理 (axiom)。 如 果 符号 kim 指 代 的 那个 人 确实 讲授 了 符号 cs502 指 代 
的 课程 ， 则 你 可 以 断言 子 名 teaches(kim，cs502) 在 给 出 的 特定 的 解释 中 为 真 。 

第 五 步 : 现在 你 可 以 提出 关于 该 特定 的 解释 的 问题 并 能 使 用 赋予 符号 的 含义 来 解释 结果 ， 

根据 这 个 方法 ， 知 识 库 的 设计 者 在 第 四 步 之 前 实际 上 没有 告诉 计算 机 任何 事情 。 前 三 
步 在 设计 者 的 脑子 中 进行 。 当 然 ， 设计 者 应 该 为 那些 符号 表示 建立 文档 ,使 其 他 人 能 够 理 
解 设 计 册 的 知识 库 ， 从 而 使 得 他 们 记 住 每 一 个 符号 的 表示 ， 也 能 够 检查 子 句 是 否 为 真 。 计 
算 机 不 必要 访问 上 述 的 内 容 。 

世界 本 身 并 不 规定 个 体 是 什么 。 

LS 12-10] 在 一 个 域 的 荣 概 念 化 中 ，pink 可 能 是 有 一 个 论 元 的 谓词 符号 ， 且 当 论 元 所 
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指 代 的 个 体 为 粉色 时 其 值 为 真 。 在 男 一 个 概念 化 中 ，pink 可 能 指 代 一 个 颜色 为 粉色 的 个 体 ， 
且 可 用 做 有 两 个 论 元 的 谓词 color 的 第 二 个 论 元 的 值 ， 其 中 谓词 color 的 含义 是 第 一 个 论 元 所 
指 代 的 个 体 具有 第 二 个 论 元 所 指 代 的 颜色 。 另 外 ,一 些 人 可 能 想 在 某 一 水 平 上 描述 世界 ， 此 
时 可 能 不 区 分 红色 的 深浅 浓淡 ， 因 此 在 描述 中 并 不 包括 粉色 。 另 一 些 人 可 能 想 从 更 细节 的 水 
平 上 来 描述 世界 ， 此 时 粉色 显得 过 于 笼统 ， 所 以 使 用 了 诸如 珊瑚 色 和 和 狂 肉 色 来 描述 。 < 

认识 到 符号 的 准确 含义 在 知识 库 设 计 者 的 头脑 里 是 重要 的 。 有 些 时 候 ， 这 些 符 号 的 准 
确 含义 甚至 没有 写 下 来 ;即使 写 下 来 了 ， 也 常常 是 用 自然 语言 的 形式 来 向 其 他 人 传递 这 些 
含义 。 当 域 中 的 个 体 是 真实 的 物理 对 象 时 ， 常 常 难以 给 出 其 准确 含义 ， 除 非 指 明 其 实体 本 
身 。 当 个 体 是 一 个 抽象 的 个 体 时 一 一 例如 大 学 里 的 一 门 课程 或 爱 的 概念 ， 则 几乎 完全 不 可 
能 写 出 它们 的 准确 含义 。 然 而 ， 这 并 不 能 阻止 系统 表示 和 推理 这 类 的 概念 。 

【 例 12-11] 在 例 5-5 中 仅 用 命题 表示 了 图 1-8 中 的 用 电 环境 。 使 用 个 体 和 关系 能 够 使 
表示 更 加 直观 ， 因 为 关于 开关 如 何 工 作 的 通用 知识 能 够 清楚 地 与 关于 一 个 特定 的 房子 的 知 
识 分 开 。 

为 表示 这 个 域 ， 我 们 首先 要 确定 域 中 都 有 哪些 个 体 。 在 下 文中 ， 我 们 设 每 一 个 开关 、 
每 一 慢 灯 、 每 一 个 捅 座 均 为 个 体 。 我 们 也 将 两 开关 间 的 电线 和 开关 与 电灯 间 的 电线 表示 为 
个 体 。 有 些 人 可 能 会 说 ， 事实 上 有 多 对 电线 使 用 连接 器 连接 起 来 ， 且 电流 必须 服从 基 和 尔 霍 
夫 定 律 。 另 一 些 人 可 能 会 说 上 面 的 抽象 也 是 不 合适 的 ,我们 应 该 为 电流 的 流动 建 模 。 不 
过 ， 适宜 于 求解 处 理 的 问题 的 抽象 就 是 一 个 合适 水 平 的 抽象 。 房 子 里 的 居民 可 能 不 知道 电 
线 个 体 之 间 在 哪里 连接 ， 也 不 知道 电压 是 多 少 。 因 此 ， 我们 假设 一 个 电流 模型 ， 在 其 中 电 
流 从 房子 外 面 通过 电线 到 达 电 灯 。 这 个 模型 对 于 确定 电灯 是 否 点 亮 是 合适 的 ， 不 过 它 可 能 
不 适合 处 理 所 有 的 任务 。 

下 一 步 ， 为 每 一 个 我 们 想 要 引用 的 个 体 指定 名 字 。 这 在 图 1-8 中 已 经 完成 例如, 个 
体 wo EREI h 与 开关 s 间 的 电线 。 

下 一 步 ， 选 择 要 表示 的 关系 。 假 设 有 下 面 的 谓词 和 与 它们 联系 的 特定 的 解释 : 

。 light AR, MRL BRM MAE —BH . 

。 Lit(L AH, WRK L 开 着 并 正在 发 光 。 
live(W) 为 真 ， 如 果 有 电能 进入 W; 也 就 是 说 ，W 是 通电 的 。 
up(S) 为 真 ， 如 果 开 关 S 是 闭合 的 。 

* down(S) 为 真 ， 如 果 开 关 S 是 断 开 的 。 

。 ohK( EAR, MRE RAKIM: 巨 可 以 是 断路 开关 ， 也 可 以 是 电灯 。 

。 co7zzzected_io(X，7) 为 真 ， 如 果 元 件 与 元 件 开 是 连接 的 ， 从 而 电流 能 从 并 流 到 XX。 

在 这 个 阶段 ,我们 还 没有 告诉 计算 机 任何 事情 。 它 还 不 知道 有 哪些 谓词 ， 更 不 用 说 这 
些 谓词 的 含义 了 。 它 还 不 知道 存在 哪些 个 体 及 这 些 个 体 的 名 字 。 

在 知道 关于 特定 房屋 的 任何 事情 之 前 ， 可 以 向 系统 输入 下 面 的 一 般 规则 : 

lit(L)<light(L) A live(L) A ok(L) 

递归 的 规则 可 让 你 根据 什么 与 什么 相连 来 说 明 哪 些 是 通电 的 : 

live(X)<connected to (X,Y)N\ live(Y) 

live(outside) 

对 于 特定 的 房屋 ， 给 定 一 个 元 件 的 特定 配置 和 它们 的 连接 关系 ， 就 可 告诉 计算 机 下 面 
关于 所 讨论 的 世界 的 事实 ; 

light(1,) 

light(le) 
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downlsi ) 

up(s,) 

connected _to( wy yw, )<—upls, ) 
connected_to(wy »w2)<-down( ss ) 


connected_toCw, »w;)<up(s, ) 
这 些 规 则 和 原子 子 句 就 是 告诉 计算 机 的 全 部 内 容 。 计 算 机 不 知道 这 些 符号 的 含义 。 然 
而 ， 它 现在 可 以 回答 有 关 该 特定 房屋 的 问题 。 < 


12.3.3 带 变量 的 查询 


查询 用 来 询问 某 结论 是 和 否 是 知识 库 的 逻辑 结论 。 使 用 命题 查询 ， 用 户 可 以 询问 yes-no 的 问 
题 。 带 参数 的 查询 允许 系统 返回 变量 的 取 值 一 该 取 值 使 查询 的 事物 成 为 知识 库 的 逻辑 结论 。 

通过 使 用 项 替换 查询 中 的 变量 来 得 到 查询 的 实例 (instance)。 同 一 个 变量 的 多 次 出 现 
需要 使 用 同一 个 项 来 替换 。 给 定 一 个 有 自由 变量 的 查询 ， 其 解答 (answer) 或 者 是 查询 的 一 
个 实例 (是 知识 库 的 一 个 逻辑 结论 ) 或 者 是 “no” (意味 着 没有 查询 的 实例 可 从 知识 库 导 出 )。 
通过 为 查询 中 的 变量 提供 具体 的 值得 以 确定 查询 的 实例 。 确 定 查询 的 哪个 实例 可 从 知识 库 
导出 的 过 程 被 称 为 解答 抽取 (answer extraction) 。 

【 例 12-12] 考虑 图 12-2 中 的 子 句 。 写 下 这 些 子 句 的 人 大 概 为 这 些 符 号 联系 了 一 些 特 
定 的 含义 ， 并 且 这 些 子 句 在 某 个 或 许 是 虚构 的 世界 中 是 真实 的 。 计 算 机 对 房间 和 方向 一 无 
所 知 。 它 所 知道 的 仅 是 那些 给 定 的 子 句 ; 且 它 能 计算 逻辑 结论 。 


% imm _west(W，E) 为 真 ， 如 果 房 间 W 紧 接 在 房间 瑟 的 西边 
imm_west(rl01, 1103) 
imm_west(r103, 7105) 
imm_west(7105, r107) 
imm_west(7107, r109) 
imm_west(r109, r111) 
imm_west(r131, r129) 
imm_west(r129, r127) 
imm_west(7127, 1125) 
Kimm _east(E, WA. WR ERE W 的 东边 
imm _east(E, W)= 
imm_west(W, E) 
%nezt _door(R1, ROAM, MRA R1 是 房间 R2 HRS 
next door(E, W)< 
imm_east(E, W) 
next _door(W, E)=< 
tmm_west(W, E) 
%two _doors_east(E, WHH, MRA EERW 东边 第 二 个 门 
two_doors_east(E, W)< 
imm_east(E, M) A 
imm_east(M, W) 
Kwet(W, DAK, WRF W 在 房间 EE 的 西边 
west (W, E)= 
imm_west(W, E) 
west (W, E)< 
imm_west(W, M) A 
west(M, E) 504 





图 12-2 一 个 关于 房间 的 知识 库 505 
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用 户 可 以 提出 下 面 的 查询 : 
ask imm_west(r105 ,r107) 
而 解答 是 yes。 用 户 可 以 提出 以 下 查询 : 
ask itmm_east(r107.7105) 
解答 仍然 是 yes。 用 户 可 以 继续 提出 以 下 查询 : 
ask imm_west(7205 ,r207) 
此 时 的 解答 是 ao。 这 意味 着 查询 的 内 容 不 是 一 个 逻辑 结论 ， 而 不 是 说 其 为 假 。 在 知识 库 中 
没有 足够 的 信息 来 确定 房间 r205 是 否 紧 接 在 房间 r207 的 西边 。 
查询 
ask next_door(R,r105) 
有 两 个 解答 。 其 一 是 R=rl07. 意味 着 xnezt_cdoor(r107，rl05) 是 子 句 集合 的 一 个 逻辑 结 
论 。 男 一 个 解答 是 R=”103。 查 询 
ask west(R,r105) 
有 两 个 解答 : R=r103 和 R=r101. £H 
ask west(r105,R) 
有 三 个 解答 : R=r107, R=rl109 Al R=rl1ll, EH 
ask next_door(X,Y) 
有 16 个 解答 ， 包 括 了 
X=rl103,Y=r101 
X=r105,Y=r103 
X=r101,Y=r103 


12.4 证 明 与 替换 


5. 2.2 节 中 的 自 底 向 上 和 自 项 向 下 的 命题 证 明 过 程 均 可 经 过 扩展 用 于 Datalog。 

子 句 的 实例 通过 用 项 替换 子 句 中 的 变量 来 得 到 。 一 个 特定 变量 的 所 有 出 现 位 置 均 蔡 换 
为 相同 的 项 。 针 对 变量 而 扩展 的 证 明 过 程 必 须 考虑 这 样 一 个 事实 子 句 中 的 自由 变量 意味 
着 子 句 的 任何 实例 均 为 真 。 同 一 个 证 明 过 程 中 可 能 不 得 不 使 用 同一 个 子 句 的 不 同 实例 。 这 
种 为 每 一 个 变量 赋 什 么 值 的 过 程 被 称 为 替换 。 

一 个 替换 (substitution) 是 一 个 有 限 的 {Vi/&，.…，V,/} 形 式 的 集合 ， 其 中 每 一 个 V: 
是 一 个 不 同 的 变量 , 每 一 个 5 是 一 个 项 。 集 合 中 的 元 素 Vti 是 变量 Vi 的 一 个 绑 定 - 
(binding)。 如 果 在 任何 一 个 项 h 中 均 没 有 变量 V; 出 现 ， 则 称 该 替换 为 标准 形 (Cnormal 
form) 蔡 换 。 

【 例 12-13) Pian, (X/Y. GZ/d) 是 一 个 标准 形 蔡 换 ， 其 中 将 和 绑 定 为 了 ， 将 RE 
为 &。 而 替换 {X/Y，27X) 不 是 一 个 标准 形 蔡 换 ， 因 为 变量 X 既 出 现在 了 一 个 绑 定 的 左边 
又 出 现在 了 一 个 绑 定 的 右边 。 可 

替换 o 一 (VD +s Walt, 在 表达 式 e 上 的 应 用 (application)， 记 为 eay 是 一 个 与 原 
始 的 表达 式 上 类似 的 表达 式 ， 不 同 之 处 在 于 e 中 出 现 Vi 的 地 方 被 兰 换 成 了 相应 的 t;。 表 达 
式 eo 被 称 为 e 的 一 个 实例 。 如 果 eo 不 包含 任何 变量 ， 则 它 被 称 为 的 基 实 例 Cground 
instance) 。 

【 例 12-14] 替换 的 一 些 应 用 如 下 : 


pla, X)( X/c)}= pla-c) 
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POY sc) {Y/a}= plac) 

pla, X){Y/a,Z/X}=pla,X) 

pCX. XY Y2Z){(X/Z,Y/t} =p(Z,ZststsZ) 

替换 可 应 用 于 子 句 、 原 子 和 项 。 例 如 ， 将 替换 {X/Y，Zy/e} 应 用 于 子 名 

DEX Yaga, Z XYZ) 

得 到 的 结果 是 子 名 

plY ,Y)<qla,a,Y.Y,a) < 

WR eo 与 ezo 相同 则 称 蔡 换 a 为 表达 式 e Me 的 合 一 算 子 。 也 就 是 说 ， 两 个 表达 式 
的 合 一 算 子 是 一 个 苦 换 ， 当 将 该 替换 应 用 到 每 一 个 表达 式 上 时 ， 会 得 到 相同 的 结果 。 

【 例 12-15] {X/a, Y/b} Œ tla, Y, OMX, bs 的 合 一 算 子 ， 因 为 

t(a,Y.c){X/a,¥/b}=t(X,b,c) {X/a,¥/b} =t(a,b,c) <a 

表达 式 可 以 有 许多 合 一 算 子 。 

【 例 12-16) 原子 p(X, YM pl(2Z，2Z) 有 许多 合 一 算 子 ， 包 括 {X/5,，Y/b,， Z/b}, 
{X/c，Y/c，Y/c} 和 {XX/Z，Y/2Z}。 第 三 个 蔡 换 比 前 两 个 更 一 般 化 ， 因 为 前 两 个 替换 中 X 
和 YY 的 替换 均 与 Z 的 相同 ， 只 不 过 对 其 取 值 有 了 更 多 的 限制 。 本 

替换 是 表达 式 e Me 的 最 广 合 一 算 子 (most general unifier，MGU)， 如 果 满 足 : 

。 5 是 两 个 表达 式 的 合 一 算 子 ; 

。 如 果 存 在 另 一 个 替换 oe: 和 ez 的 合 一 算 子 ， 那 么 对 于 所 有 的 表达 式 e，ec 一 定 

是 eo 的 一 个 实例 。 

如 果 表 达 式 et 和 表达 式 ez 仅 是 变量 名 字 不 同 ， 则 表达 式 ei 是 表达 式 e 的 一 个 换 名 
(Crenaming)。 此 时 ， 它 们 相互 为 对 方 的 一 个 实例 。 

如 果 两 个 表达 式 有 一 个 合 一 算 子 ， 则 它们 至 少 有 一 个 MGU. 将 不 同 的 MGU 应 用 到 
一 个 表达 式 后 得 到 的 表达 式 相 互 间 均 为 换 名 。 也 就 是 说 ， 如 果 o 和 a 都 是 表达 式 e, 和 e 
的 MGU, 那么 eo 是 eic HRA. 

【 例 12-17〗 (X/Z, Y/Z}AUZ/X, Y/X)} FR p(X. YA p(Z, DA) MGV, MAE 
们 到 表达 式 P(X，Y) 得 到 的 结果 

PCX.Y){X/Z,Y/Z} =pCZ,2) 

pCX.Y)({Z/X.Y/X} =p(X,X) 
彼此 互 为 换 各 。 a 


12.4.1 带 变 量 的 自 底 向 上 过 程 


通过 使 用 子 句 的 基 实 例 ， 命 题 的 自 底 向 上 证 明 过 程 能 够 扩展 应 用 到 Datalog 中 。 子 句 
的 基 实 例 可 通过 将 子 句 中 的 变量 替换 为 常量 得 到 。 需 要 的 常量 包括 出 现在 知识 库 或 查询 中 
的 常量 。 如 果 在 知识 库 或 查询 中 没有 常量 ， 则 需要 创建 一 个 。 

【 例 12-18) 设 知 识 库 如 下 : 

qla) 

tis 

rla) 

s(W)—r(W) 

p(X. Y)<—¢gCX) As(Y) 

所 有 的 基 实 例 构成 的 集合 如 下 : 


qla) 
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qb) 

rla) 

s(a)=-r(a) 

s(b)<r(b) 

pla,a)+gqla) A sla) 

p(a,b)<=q6a) A stb) 

p(b,a)=q() A sla) 

p(b,b)=q(b) Ash) 

5. 2. 2 节 命 题 的 自 底 向 上 的 证 明 过 程 能 够 用 来 导出 基 实 例 gla), g(b), rla), sla), 
pla，a) 和 pl5b，a)， 它 们 都 是 逻辑 结论 。 < 

【 例 12-19] 设 知识 库 如 下 : 

p(X.Y) 

g~ p(w Ww) 

自 底 向 上 的 证 明 过 程 必须 创建 一 个 新 的 常量 符号 ， 设 为 <。 此 时 所 有 的 基 实 例如 下 : 

Cesc) 

g~xplesc) 

命题 的 自 底 向 上 证 明 过 程 将 导出 pl(c，c) 和 g。 

如 果 有 查询 ask p(a，d)， 基 实例 集合 会 做 相应 改变 来 反映 出 这 些 常量 < 

应 用 于 知识 库 的 自 底 向 上 证 明 过 程 是 可 靠 的 ， 因 为 每 一 个 规则 的 每 一 个 实例 在 每 一 个 
模型 下 均 为 真 。 这 个 过 程 本 质 上 与 无 变量 的 情况 相同 ， 不 过 它 使 用 了 子 句 的 基 实 例 集 合 ， 
而 这 些 子 句 均 定义 为 真 。 

这 个 过 程 对 于 基 原 子 也 是 完备 的 。 也 就 是 说 ， 如 果 基 原子 是 知识 库 的 一 个 结论 ， 则 该 
结论 终 会 被 导出 。 为 证 明 这 一 点 ， 与 命题 的 情形 一 样 ， 我 们 构建 一 个 特定 的 通用 模型 。 一 
个 模型 必须 明确 常量 的 指 代 。 一 个 Herbrand 解释 是 一 个 解释 ， 其 中 的 域 是 象征 性 的 且 由 
语言 中 的 所 有 常量 组 成 。 如 果 其 中 没有 常量 则 创建 一 个 个 体 。 在 Herbrand 解释 中 ， 每 一 
个 常量 均 指 示 其 自身 。 

考虑 一 个 Herbrand 解释 ， 其 中 关系 的 基 实 例 为 真 ， 而 这 些 实例 可 通过 一 个 合适 的 选 
择 规则 最 终 由 自 底 向 上 的 过 程 导 出 。 显 然 ， 这 个 Herbrand 解释 是 给 定 的 规则 的 一 个 模型 。 
正如 无 变量 的 情形 ， 它 是 一 个 最 小 模型 (minimal model) ， 因 为 在 所 有 的 模型 中 它 有 最 少 
的 原子 。 如 果 对 于 基 原 子 cA KB Fe, We 在 最 小 模型 中 为 真 ， 从 而 可 最 终 被 导出 。 

【 例 12-20) 考虑 图 12-2 中 的 子 句 。 自 底 向 上 的 证 明 过 程 可 立即 导出 imm_wese 的 每 
一 个 已 作为 事实 给 出 的 实例 。 然 后 你 可 以 添加 imm_east FA: 

imm_east(7103,7101) 

imm_east(7105,7103) 

imm_east(7107 ,r105) 

imm_east(7109 7107) 

imm_east(r111,7r109) 

imm_east(r129,7r131) 

imm_east(7127 ,7129) 

imm_east(71125 ,7127) 

下 一 步 ， 下 面 的 next_door 关系 可 加 入 结论 集合 中 ， 包 括 : 
next_door(r101,7r103) 

next_door(r103,r101) 
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two_door_east 关系 可 被 加 入 结论 集合 中 ,包括 : 
two_door_east(r105,r101) 
two_door_east(r107,7r103) 


最 后 ， 随 后 的 west 关系 可 被 加 入 结论 集合 中 。 < 


12.4.2 ” 带 变 量 的 确定 性 归结 


通过 人 允许 在 导出 过 程 中 使 用 规则 实例 ， 可 扩展 命题 的 自 顶 向 下 证 明 过 程 以 处 理 带 变量 
的 情形 。 
一 个 一 般 解 答 子 名 (generalized answer clause) 具 有 下 面 的 形式 : 
yes(ty ys ti <a; Naz As Nam 
JER h, s+, 4 BH, a, s a, 为 原子 。yes 的 使 用 使 得 解答 抽取 (answer extraction) 
成 为 可 能 : 确定 查询 变量 的 哪些 实例 是 知识 库 的 逻辑 结论 。 
一 开始 ,查询 9 的 一 般 解 答 子 句 是 : 
yes(Vi,"™ Vi)<q 
HPV, eo Vi 是 出 现在 g 中 的 变量 。 直 观 的 ， 上 述 子 句 意味 着 如 果 对 应 的 查询 的 实例 
为 真 ， 则 yes(Vi i VJ AB. 
证 明 过 程 维 护 了 一 个 当前 的 一 般 解答 子 句 。 
在 每 一 个 阶段 ， 算 法 在 一 般 解 答 子 句 的 体 中 选择 一 个 原子 a;。 然 后 在 知识 库 中 选择 一 
个 头 为 ai 的 子 句 。 一 般 解答 子 句 7 人 人 an TE ai 上 使 用 选中 的 
Taj 
asb; A= Nbp 
(其 中 ，a 和 a 有 最 广 合 一 算 子 c) 的 SLD 归结 是 解答 子 句 : 
Cyes(ty ott" tea, Ao Naim Ab Ao Ab, Adin At Nando 
其 中 在 选中 的 子 句 的 体 上 的 a; 在 解答 子 句 中 已 被 替换 ， 且 MGU 也 应 用 于 整个 解答 子 句 。 
一 个 SLD 推导 是 一 般 解答 子 句 的 序列 yo. Nis ts n AP: 
。 yo 是 对 应 于 原始 查询 的 解答 子 句 。 如 果 查 询 为 dg HRA AAEE Vi, s Ves W 
最 初 的 一 般 解 答 子 句 yo 为 : 
yes(V, +" Ve) <q 

。 通过 在 y;_! 的 体 中 选择 一 个 原子 a; 来 得 到 7;; 在 知识 库 中 选择 一 个 子 句 a<-b A A 
b, 的 副本 ， 该 子 句 的 头 a 与 ai 一致 ; PARA A Ab, 蔡 换 a;; 然后 将 合 一 算 子 应 
用 于 整个 解答 子 句 中 。 

这 一 过 程 与 命题 的 自 顶 向 下 证 明 过 程 的 主要 区 别 在 于 ， 对 于 带 变 量 的 子 句 ， 证 明 过 程 
必须 从 知识 库 复制 子 句 的 副本 。 在 副本 中 重新 命名 了 子 句 中 的 变量 。 这 样 做 不 仅 是 为 了 消 
解 变量 名 字 间 的 冲突 ， 同 时 也 因为 一 个 证 明 过 程 可 能 使 用 一 个 子 句 的 不 同 实例 。 

。 入 是 一 个 解答 。 也 就 是 说 ， 它 有 如 下 的 形式 : 

yesli stt sty) i 

当 上 面 的 导出 发 生 时 ， 算 法 返回 解答 : 

Vi =t s Vit 

请 注意 该 解答 是 如 何 得 到 的 ; ves 的 论 元 保存 了 原始 查询 中 的 变量 实例 的 轨迹 ， 该 轨 
迹 通 向 一 个 成 功 的 证 明 。 | 

一 个 非 确定 性 的 过 程 通过 图 12-3 所 示 的 发 现 SLD 推导 的 算法 回答 了 查询 。 这 是 一 个 
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非 确 定性 的 过 程 ， 因 为 所 有 的 能 通过 合适 的 选择 找到 的 推导 都 不 会 失败 。 如 果 所 有 的 选择 
都 失败 了 ， 则 算法 也 会 失败 ， 此 时 不 会 有 导出 结果 。 选 择 使 用 搜索 来 实现 。 该 算法 假设 
unify(ai，Q) 返 回 一 个 at Ma 的 MGU( 如 果 存 在 )， 或 者 是 (如果 两 者 不 合 一 )。 合 一 的 
定义 在 下 一 节 给 出 。 


l: non-deterministic procedure FODCDeduction TD(KB, q) 
Inputs 
KB, 一 个 限定 子 句 的 集合 
查询 q: 带 有 变量 Vis ey Viv 需要 证 明 的 原子 集合 


Output 

Hh 89， 如 果 KB Eg, 车 无 此 替换 则 证 明 失 败 
Local 

GG 是 一 个 一 般 解 答 子 句 
设 G 为 一 个 一 般 解 答 子 句 yes(V, pe VD 二 


while G 不 是 一 个 解答 do 

假设 G 为 yesG 才 让)<ai 人 da 人 … 和 aa 

在 G 的 体 中 选择 原子 a; 

在 知识 库 KB 中 选择 子 句 a=<-b Ae Ab, 

将 子 句 ab Ao Nb, 中 的 变量 改 务 

将 合 一 算 子 unify(a;，a) 设 为 a。 如 果 没 有 合 一 算 子 则 返回 | 

HE G HIB F 1 (yest. es tar Aw Aam Nb A Ab, Nam: Am Aa do |" 
return V, =f, **+ Vietee SE GW yesli ++, 4) 





图 12-3 自 顶 向 下 限定 子 句 证 明 过 程 
【 例 12-21) 考虑 图 12-2 中 的 知识 库 和 如 下 查询 : 


ask two_doors_east(R,r107) 

图 12-4 说 明了 一 个 成 功 的 导出 过 程 且 得 到 的 解答 为 R 二 rl111。 

请 注意 上 述 导 出 过 程 使 用 了 如 下 规 
则 的 两 个 实例 : 

imm_east( E,W )<-imm_west(W ,E) 

其 中 一 个 实例 是 用 rl11 BRE. A 
一 个 实例 是 用 r109 替换 E. 

有 些 选择 归结 的 子 句 相互 对 立 ， 可 
能 导致 一 个 无 法 完成 的 部 分 推导 。 < 
























yes(R)=<two_doors_east(R, r107) 

归结 : two_doors_east(E,, W,)=- | 
imm_east(E,, M,) A imm_east(M,, W,) 

替换 ; (E,/R, W,/r107) 

yves(R)+imm_east(R, M,) \imm_east(M,, r107) 
选择 最 左边 的 合 取 项 
945: imm_east(E:,， W.)+-imm_west(W., E;) 
替换 : {Es/R，W;/M:i} 

yes(R)+imm_west(M,, R) \imm_east(M,, r107) 


合 一 选择 最 左边 的 合 取 项 
前 面 的 算法 假设 我 们 能 够 找到 两 个 归结 ; imm_west(r109, r111) 


$f: {M,/r109, R/r111} 
yes(r1ll1)<—imm east(r109, r107) 
Wi: imm_east(E,, W,)+imm_west(Wy, Es) 
494%. (E,/r109, W,/7107} 
yes(r111)=-imm_west(r107, r109) 
归结: imm_west(r107, r109} 
FM. O 
yes(rll1)<— 


原子 的 最 广 合 一 算 子 。 合 一 问题 的 含义 
H: 给 定 两 个 原子 ， 确定 它们 是 否 是 合 
一 的 ; 如 果 是 合 一 的 ， 则 返回 它们 的 一 
个 MGU. 

求解 合 一 问题 的 算法 在 图 12-5 中 给 
出 。E 是 意味 着 合 一 的 等 价 陈述 的 集合 ， 
S 是 一 个 替换 的 正确 形式 的 等 价 集合 。 图 12-4 查询 ask two_doors_east(R，#107) 的 导出 过 程 
在 这 个 算法 中 ， 如 果 z/y ES 中 的 一 个 
替换 ， 那么 通过 替换 ，z 作为 变量 不 会 出 现在 S RE 中 的 任何 地 方 。 在 第 20 行 , 工 和 y 
必须 有 相同 的 谓词 且 必 须 有 相同 数量 的 论 元 ; 否则 ， 同 一 问题 就 无 法 求解 。 
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l: procedure Uni fy(2,, t:) 
2s Inputs 

3: bs tes AT 

4: Output 

5: h Ale 的 最 广 合 一 算 子 : 如 果 不 存在 则 返回 上 
6: Local 

7 E: 等 价 陈 述 的 集合 
B: S: 替换 

9; E=-({t;=t)} 

10; S={} 

ll; while E({} do 


12: 从 互 中 选择 并 移 除 2=y 
13; if y 与 工 不 完全 相同 then 








Tider 、 if x 是 一 个 变量 then 

15; ERS 中 的 所 有 zz 替换 为 y 

16: S+(a/y}US 

17; else if y 是 一 个 变量 then 

18; H EMS 中 的 所 有 > 替换 为 工 

19: S=<-{y/2}US 

20; else if z HE f (yj, "s z H yd f (yi o> »,) then 
Zl: EEU {215 yis ts Ln = ynt 

22, else 

23; return | 


24, return S 


图 12-5 Datalog 中 求解 合 一 问题 的 算法 


【 例 12-22] 假设 我 们 想 求解 pX, Y, YAM pl(a，Z， 台 的 合 一 算 子 。 一 开始 , EX 
{p(X,，Y,，Y) 二 pl(a，Z，5)}。 在 while 循环 的 第 一 次 运行 中 , EBRMT(X=a, Y=Z, 
Y 王 分 。 假 设 下 一 步 选中 了 X=a, MAS 变 成 了 {X/a},; EA(Y=Z. Y=b}. i F— 
步 选 中 Y= 二 Z。 那 么 S 和 EE 中 的 Y 就 替换 为 Z。S 成 为 {X/a，Y/2Z}， 而 五 成 为 {(Z 二 5)。 
最 后 选中 的 是 Z==5b， 并 使 用 5 蔡 换 Z，S 就 成 为 {X/a，Y/b，2Z/5}，E 就 成 为 空 集合 。 蔡 
i{X/a, Y/b, Z/b) WEIR HY MGU., 本 


12.5 函数 符号 


对 于 Datalog 系统 中 的 推理 所 涉及 的 每 一 个 体 ， 均 需要 一 个 用 常量 表示 的 名 字 。 通 
常 ， 使 用 个 体 组 件 而 不 是 为 每 一 个 体 分 配 一 个 单独 的 常量 来 识别 个 体 更 为 简单 。 

【 例 12-23) 在 许多 问题 域 中 ， 你 希望 能 够 引用 一 段 时 间 ， 并 将 其 作为 一 个 个 体 。 你 
可 能 会 说 某 一 课程 的 上 课时 间 是 11:30am。 你 并 不 想 为 每 一 个 可 能 的 时 间 分 配 一 个 常量 。 
使 用 几 点 几 分 来 定义 时 间 会 更 好 。 类 似 的 ， 你 可 能 想 推理 提 到 了 特定 日 期 的 事实 。 你 也 不 
想 为 每 一 个 日 期 设置 一 个 常量 。 而 使 用 年 、 月 、 日 来 定义 日 期 是 一 个 更 容易 的 方法 。 “本 

使 用 常量 来 命名 每 一 个 个 体 就 意味 着 知识 库 仅 能 表示 有 限 的 个 体 ， 且 一 旦 知识 库 设 计 
完成 后 ， 其 中 的 个 体 数 也 就 确定 了 。 然 而 ， 存 在 着 许多 的 情形 ， 在 该 情形 中 你 想 在 一 个 无 
限 的 个 体 集 合 中 进行 推理 。 

【 例 12-24] 假设 你 想 建造 一 个 系统 ， 该 系统 接受 英语 的 提问 ， 并 通过 访问 一 个 在 线 
的 数据 库 来 回答 该 提问 。 此 时 ， 每 一 句子 都 被 认为 是 一 个 个 体 。 你 不 会 想 为 每 一 个 句子 指 
定 一 个 名 字 ， 因 为 英语 句子 数量 太 多 ,不 可 能 逐一 为 它们 命名 。 为 单词 命名 ,然后 使 用 单 
词 在 句子 中 出 现 的 顺序 来 明确 说 明 一 个 句子 可 能 更 好 。 这 个 方法 可 能 更 为 实用 ， 因 为 需要 
命名 的 单词 数 远 少 于 需要 命名 的 句子 数 ， 且 每 一 个 单词 都 有 其 自然 的 命名 。 你 可 能 想 使 用 
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单词 中 的 字母 或 者 单词 的 构成 部 分 来 明确 说 明 单词 。 = 

【 例 12-25) 你 可 能 想 在 学 生 列表 中 进行 推理 。 例 如 ， 你 可 能 需要 导出 一 个 班级 的 学 
生 的 平均 成 绩 。 一 个 班级 学 生 的 列表 是 一 个 个 体 ， 它 有 属性 ， 如 列表 的 长 度 和 它 的 第 七 个 
元 素 等 。 尽 管 为 每 一 列表 命名 是 可 能 的 , 但 这 样 做 却 非常 不 方便 。 使 用 列表 的 元 素来 描述 
列表 是 一 个 更 好 的 方法 。 < 

函数 符号 允许 你 间接 地 描述 个 体 。 与 使 用 常量 来 描述 个 体 不 同 ， 一 个 个 体 可 使 用 其 他 
个 体 来 描述 。 

在 句法 构成 上 ， 一 个 函数 符号 (function symbol) 是 一 个 以 小 写字 母 开 头 的 单词 。 我 们 
扩展 项 的 定义 ， 因 此 项 (term) 可 以 是 变量 、 常 量 或 具有 形式 SSG, 1o OMS, 其 中 了 
是 一 个 函数 符号 ， t 为 项 。 除 扩展 了 项 的 定义 之 外 ， 语 言 没 有 其 他 变化 。 

项 仅 出 现在 谓词 符号 中 。 你 不 会 写 出 逻辑 蕴含 一 个 项 的 子 句 。 然 而 ， 你 可 能 会 写 出 包 
含 了 原子 的 子 句 ， 其 中 在 原子 中 使 用 函数 符号 作为 描述 个 体 的 一 种 方式 。 

为 反映 出 这 一 新 句法 ， 必 须 改 动 语义 。 些 时 ， 仅 需 作 出 的 改动 是 $8 的 定义 。 我 们 扩展 
$ 使 其 成 为 从 每 一 个 常量 到 DD 的 每 一 个 元 素 及 从 每 一 个 n 元 函数 符号 到 从 D" 映射 到 DD 的 
函数 的 映射 。 因 此 ，#$ 确 定 了 每 一 函数 符号 所 指示 的 映射 。 特 别 的 ,，#$ 明确 了 每 一 个 基 项 
所 指 代 的 个 体 。 

由 带 有 函数 符号 的 子 句 组 成 的 知识 库 能 够 计算 任何 可 计算 的 函数 。 因 此 ， 知 识 库 可 解 
释 为 一 个 程序 ， 称 为 逻辑 程序 (logic program), 

这 个 语言 上 的 微小 扩展 具有 重要 的 影响 。 仅 使 用 一 个 函数 符号 和 一 个 常量 ， 即 可 引出 
无 限 的 不 同 的 项 和 无 限 的 不 同 的 原子 。 这 些 无 限 的 项 可 用 来 描述 无 限 的 个 体 。 

【 例 12-26) 假设 你 想 定义 一 天 内 的 时 间 ， 正 如 例 12-23 中 的 那样 。 你 可 以 使 用 函数 
符号 am, Mii axz( 瓦 ，MD) 表 示 时 间 H:Ma.m., HP H Æ 1~12 的 整数 ，M 是 0 一 59 的 
整数 。 例 如 ，am(10，38) 表 示 时 间 是 10:38 a.m. ; am 表示 一 个 将 一 对 整数 映射 为 时 间 的 
函数 。 类 似 的， 你 可 以 定义 符号 pm 来 表示 午后 的 时 间 。 

使 用 函数 符号 的 唯一 方式 是 编写 使 用 函数 符号 来 定义 关系 的 子 句 。 这 里 没有 定义 函数 
am 的 意图 ; 计算 机 中 的 时 间 概 念 并 不 比 其 在 人 的 头脑 中 的 概念 多 。 

为 使 用 函数 符号 ， 你 可 以 编写 对 函数 符号 的 论 元 有 量化 定义 的 子 句 。 例 如 ， 下 面 定 义 
了 关系 before(T:, Tz), WR-K PMA Ti 在 时 间 T: 之 前 ， 则 该 关系 为 真 : 

before(am( H1,M1),pm(CH2,M2)) 
before (am(12,M1) ,am( H2,M2))<— 
H2<12 

be fore (am( H1,M1) ,am( H2,M2))< 
Hi<H2A 人 \ 
H2<12 

be fore (am( H;M1) ,am(H,M2))<— 
M1<M2 

be fore (pm(2,M1).pmCH2,M2))<— 
H2<12 

be fore (pm( H1,M1),pmCH2,M2))<— 
H1<H2A 
H2<12 

be fore (pm(H , M1) ,pmCH,M2))=— 
Mi<M2 
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这 个 定义 复杂 化 了 ， 因 为 上 午 和 下 午 均 从 12 点 开始 ， 然 后 是 1 点 ， 因 此， 举例 来 说 ， 
12:37 am. {E 1:12 a.m. 之 有 前。 < 

函数 符号 用 来 构建 数据 结构 。 

【 例 12-27) 树 是 一 个 有 用 的 数据 结构 。 你 可 以 使 用 树 为 自然 语言 处 理 系 统 建立 一 个 
句子 的 句法 表示 。 我 们 可 以 决定 一 个 有 标号 的 树 具 有 node(N，LT，RT) 的 形式 或 者 具有 
leaf( 工 ) 的 形式 。 从 而 ，node 是 树 中 具有 一 个 名 字 、 一 个 左 子 树 、 一 个 有 子 树 节点 的 函 
MR. BAS leaf 表示 树 中 一 个 节点 的 函数 。 

如 果 工 是 树 工 中 的 一 个 叶子 节点 的 标签 ， 则 关系 at_ieaf(L，T) 为 真 。 它 可 定义 为 ; 

at_leaf(L,leaf(L)) 

at_leaf (L,node(N,LT,RT))< 

at_leaf(L,LT) 
at_leaf (L,node(N,LT,RT))=— 
at_leaf(L,RT) : 

这 是 一 个 结构 的 递归 程序 的 例子 。 这 些 规则 涵盖 了 表示 树 的 结构 的 所 有 情形 。 

如 果 工 是 树 了 的 内 部 节点 的 标签 ， 则 关系 in_tree(L，T) 为 真 ， 其 定义 如 下 : 

in_tree(L,node(L,LT,RT)) 

in_tree(L,node(N,LT,RT))< 

in_tree(L,LT) 
in_tree(L,node(N,LT,RT))<- 
in_tree(L,RT) < 


【 例 12-28] 你 可 以 在 列表 (list) 上 推理 而 不 需要 内 置 任何 列表 的 概念 。 一 个 列表 是 一 “ 


个 空 表 或 是 一 个 元 素 且 后 面 是 一 个 列表 。 你 可 以 设置 一 个 常量 来 表示 空 列表 。 假 设 你 使 用 
常量 nil 来 表示 一 个 空 列表 ， 那么 你 可 以 选择 一 个 函数 符号 ， 比 如 cons Hd, TD, HAE 
如 下 的 解释 : 它 表示 一 个 列表 ， 其 第 一 个 元 素 是 Hd4， 剩 余 的 表 是 Tl。 包含 了 元 素 a, b, 
c 的 列表 可 表示 为 : 

cons(a,cons(b,cons(c,nil))) 

为 使 用 列表 ， 必 须 编写 使 用 对 应 列表 的 谓词 。 例 如 ， 关系 append(X, Y, 2Z) 一 一 它 
EX, YAZ 是 列表 时 为 真 且 结 果 为 Z 中 包含 的 元 素 为 X 中 的 元 素 后 面 跟着 Z 中 的 元 
素 可 递归 地 定义 如 下 : 

append(nil,L,L) 

append (cons(Hd,X).Y ,cons(Hd,Z))< 

append(X,Y.Z) 
这 里 的 cons W nil 没有 任何 特殊 性 ;我 们 可 以 使 用 foo H bar 来 表示 它们 。 a 


带 函 数 符 号 的 证 明 过 程 


对 于 函数 符号 的 情形 ， 带 变量 的 证 明 过 程 继续 保留 。 两 种 证 明 过 程 的 主要 区 别 在 于 前 
者 扩展 了 项 的 类 别 以 包含 函数 符号 。 

函数 符号 的 使 用 涉及 无 限 多 的 项 。 这 就 意味 着 在 子 名 上 向 前 推进 推理 链 时 ， 我 们 不 得 
不 保证 为 选择 子 句 而 设置 的 标准 是 公平 的 。 

【 例 12-29) 为 说 明 公平 的 重要 性 ， 考 虑 下 面 作为 一 个 更 大 程序 的 一 部 分 的 子 句 : 

num (0) 

num(s(N))<-num(N) 
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一 个 不 公平 的 策略 会 在 最 初 选择 第 一 个 子 句 来 进行 推理 ， 而 对 于 后 续 的 推理 总 是 选择 
第 二 个 子 句 。 第 二 个 子 句 总 能 用 来 导出 一 个 新 的 结论 。 这 个 策略 从 不 会 选择 其 他 的 子 句 ， 
也 因此 从 不 能 导出 其 他 子 句 的 结论 。 “i 


— Prize 5 -pme 

一 阶 谓词 演算 (firstrorder predicate calculus) 是 扩展 了 命题 演算 以 包括 带 有 函数 符号 和 
逻辑 变量 的 原子 的 逻辑 。 所 有 的 次 辑 变 量 必须 使 用 明确 的 "全称 ”( VM“ BE" (IBA. 
一 阶 谓词 演算 的 语义 就 像 本 章 的 逻辑 程序 的 语义 一 样 ， 但 有 更 丰富 的 运算 符 。 

逻辑 程序 的 语言 形成 了 一 阶 谓词 演算 的 语 用 子 集 ， 而 一 阶 谓词 已 经 得 到 了 发 展 ， 因 为 
它 对 于 许多 任务 都 是 有 用 的 。 一 阶 谓 词 演 算 可 被 看 做 是 为 逻辑 程序 增加 了 析 取 和 明和 确 量化 
的 语言 。 

一 阶 效 辑 之 所 以 是 一 阶 的 ， 是 因为 它 允 许 对 域 中 的 个 体 给 予 量化 。 一 阶 慑 辑 既 不 多 许 
将 谓词 作为 变量 也 不 允许 对 谓词 进行 量化 。 

二 阶 逻 辑 (second-order logi) 允许 对 一 阶 关 系 和 谓词 进行 量化 ， 其 论 元 为 一 阶 关 系 。 
这 些 是 二 阶 关 系 。 例 如 ， 下 面 的 三 阶 慑 辑 公式 ` 

VR symmetric (RCV XYY R(X,Y)>R(Y,X)) 
定义 了 二 阶 关 系 symmetric， 和 如果 其 论 元 是 对 称 关 系 则 其 为 真 。 

二 阶 逻 辑 对 于 许多 应 用 来 说 是 必需 的 ， 因 为 一 阶 逻 辑 不 能 够 定义 传递 闭 包 。 例 如 ， 假 
设 你 想 使 before 作为 next 关系 的 传递 闭 包 关系 ， 其 中 nest X, sX AA., 假想 next 的 
含义 是 “下 一 毫秒 ”而 before 表示 “之 前 ”， 则 自然 的 一 阶 定义 可 能 如 下 : 

VXYY before (X,Y) (Y=s(X)V before(s(X)sY)) (12. 1) 

这 个 表达 式 没有 准确 地 捕获 上 述 定 义 。 因 为 如 下 的 例子 

VY XV Y before(X, Y)» 3 W Y=s(w) 

在 迎 辑 上 并 不 服从 式 (12. 1)， 因 为 有 式 (12. 1) 的 非 标 准 模型 中 的 了 表示 了 无 限 。 为 捕 
获 上 述 传 递 闭 包 ， 你 需要 一 个 描述 了 before 是 满足 上 述 定义 的 最 小 谓词 的 公式 。 这 可 用 二 
阶 次 辑 来 描述 。 

— Hg 4 238 19 FM (recursively enumerable) 的 ， 这 就 意味 着 存在 一 个 可 靠 、 完 备 的 
证 明 过 程 ， 从 而 每 一 个 为 真 的 语 色 均 可 在 图 灵机 上 使 用 一 个 可 靠 的 证 明 过 程 得 到 和 证明。 三 
阶 敢 辑 不 是 递归 可 数 的 ， 因 此 不 存在 一 个 可 在 图 灵机 上 实现 的 可 靠 、 完 备 的 证 明 过 程 。 


这 个 永远 忽略 一 些 子 句 的 问题 被 称 为 饥饿 (starvation)。 一 个 公平 的 选择 标准 是 任何 
可 用 的 子 句 均 有 平等 的 被 选择 机 会 。 自 底 向 上 的 证 明 过 程 只 有 在 公平 选择 的 条 件 下 才 是 完 
备 的 。 
自 顶 向 下 证 明 过 程 与 Datalog 中 的 相同 ( 见 图 12-3)。 合 一 问题 变 得 更 加 复杂 ， 因 为 必 
须 递归 地 深入 项 的 结构 中 。 在 合 一 算法 中 有 一 处 改动 : 变量 X 与 项 上 不 合 一 ， 其 中 上 中 出 
MTX 上 且 z 不 为 和 。 对 这 一 条 件 的 检查 被 称 为 出 现 检查 (oceurs check) 。 如 果 没 有 使 用 出 
现 检查 且 人 允许 一 个 变量 与 在 其 中 出 现 了 该 变量 的 项 相合 一 ， 则 证 明 过 程 就 不 再 可 靠 ， 下 面 
这 个 例子 说 明了 这 一 问题 。 

LBJ 12-30] 考虑 仅 有 一 个 子 句 的 知识 库 : 

it(X,s(X)) 

BEE A Ae Ea, le BE AD Pi s(X) 表 示 比 六 大 一 的 那个 
整数 。 查 询 ask li(Y， 耻 应 该 失败 ， 因 为 在 我 们 特定 的 解释 中 子 名 为 假 ( 没 有 哪个 数 小 于 
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其 自身 )。 然 而 ， 如 果 关 和 s(X) 能 够 合 一 ， 则 该 查询 将 成 功 。 此 时 ,证 明 过 程 将 是 不 可 靠 
的 ， 因 为 其 能 够 导出 在 公理 模型 中 为 假 的 结论 。 a 
图 12-5 中 的 合 一 算法 经 过 一 个 修改 可 用 于 找 出 两 个 带 函 数 符号 的 MGU。 如 果 算 法 选 
择 了 一 个 等 价 的 关系 z 一 y， 其 中 工 是 一 个 变量 而 y 是 一 个 含有 > 但 不 为 z HM. WAR 
法 应 返回 | 。 最 后 一 步 是 出 现 检查 。 有 时 候 会 略 去 出 现 检 查 ( 如 Prolog)， 因 为 这 样 可 使 证 
明 过 程 更 加 高 效 ， 即 使 这 样 会 使 证 明 过 程 变 得 不 可 靠 。 
下 面 的 例子 说 明了 带 有 函数 符号 的 SLD 归结 的 详细 内 容 。 
【 例 12-31) 考虑 下 面 的 子 句 : 
append (c(A,X),Y,c(A,2))<— 
append(X,Y.Z) 
append(nil,Z,Z) 
现在 先 不 考虑 上 述 子 句 的 含义 。 正 像 计算 机 那样 ， 仅 把 它 看 做 是 一 个 符号 操纵 问题 。 
考虑 下 面 的 查询 : 
ask append(F,c(L,nil),c(lvc(isc(ssc(t,nil))))) 
下 面 是 导出 过 程 : 
yes(F,L)<-append(F .c(L,nil) +c, clisc(s,c(t, nil) )))) 
归结; append(c(A;.X,),¥1 .c(A; »Z;))append(X, -¥;+Z,) 
$K: {F/eCl,X1) ,Yi/c(L nil) sAr lls Z1 /clisclsyeltsnil)))} 
yes(c(l,X,),L)<append(X, s¢lLsnil) »cG.c(s,c(t,nil)))) 
归结 : append(c(Az .X2)+¥2.c(A2+Z2))+append( X2,Y2+Z2) 
MH: (Xy/clipXz) ,Yo/c(L nil) Az /i,Z2/cCs,cCt,nil))} 
yes(c(1,cGi,Xz)),L)<append(X, .c(L, nil) »c(ssc(t,nil))) 
归结 : append(ctAs .X;).Y3 ,c(Ay,Z3))~append(X, ,Ys 2 ) 
BR, {Xzs/cCsy Xi) .Vs/cCL nil) «As/s+Z3/e(t, ml} 
yes(c(1,cGi.c(s,X3))) L)—append (Xs »cCL nil) c(t,nil)) 
此 时 ， 两 个 子 句 均 可 使 用 。 选 择 第 一 个 子 句 则 有 : 
归结 : append(cCAs ,XI Yrsel A, Zappend( XY 2) 
HR. {Xs/cCty XY /cL nit) sAy/t,Z,/nil} 
yes(c(l.cli,c(s,X3))).L)—append(X, »c(L, nil) nil) 
此 时 ， 没 有 一 个 子 句 的 头 可 与 一 般 解 答 子 句 体 中 的 原子 合 一 。 证 明 失 败 。 
选择 第 二 个 子 句 则 有 : 
妇 结 : append(nil, Z;, Z;). 
替换 ; {Z;/clt, nil), X;/nil, L/t} 
yes(c(L, cli, cls, nil))), O= 
SE. TEAR RID. RIAA F=, cli, els, nil))), L=t, < 
在 本 章 的 后 面部 分 ， 我 们 使 用 Prolog 中 的 “句法 糖衣 ”表示 法 来 表示 列表 。 其 中 空 表 
nil 记 为 []。 带 有 第 一 个 元 素 EE 和 剩余 列表 RR 的 表 ( 之 前 记 为 cons(E，R)) 记 为 [EIR]。 有 
一 个 记 法 上 的 简化 : [X|[YjJ 记 为 [X,Y]， 其 中 YY 可 为 一 个 序列 的 值 。 例 如 ，[a|L]j 记 
为 [a]，[51[La|[]j 记 为 [5，aj; [al [bl] EHL, dle]. 
【 例 12-32] 使 用 上 述 的 列表 表示 法 ， 上 一 例子 中 的 append 可 记 为 : 
append([A|XJ,Y,LA|2Z1)<— 
append(X,Y,Z) 
append((],Z,Z) 
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查询 

ask append(F.[L],[l,i,s,t]) 
有 一 个 解答 FL, i, sl], L=t. 证 明 过 程 与 上 一 例子 的 证 明 过 程 一 致 。 就 证 明 过 程 而 
言 ， 没 有 任何 变化 ; 只 不 过 是 改变 了 函数 符号 和 常量 的 名 字 。 


12.6 在 自然 语言 处 理 中 的 应 用 


自然 语言 处 理 是 一 个 有 意思 的 领域 ,但 对 于 发 展 和 评估 其 中 的 表示 和 推理 理论 却 是 很 
困难 的 领域 。AI 中 的 所 有 问题 在 这 个 领域 中 都 存在 ; 求解 “自然 语言 问题 "与 求解 “AI 问 
题 " 同 样 困难 ， 因 为 任何 一 个 领域 均 可 用 自然 语言 来 表达 。 计 算 语 言 学 (computational lin- 
guistics) 领 域 有 丰富 的 技术 和 知识 。 本 书 仅 能 给 出 一 个 概述 。 

研究 自然 语言 处 理 的 理由 至 少 有 如 下 三 个 : 

。 你 希望 计算 机 使 用 用 户 的 术语 与 其 用 户 交流 ; 你 不 能 强迫 用 户 去 学 习 一 门 新 的 语 

言 。 这 对 于 普通 用 户 和 诸如 经 理 与 孩子 (他 们 既 没 有 时 间 也 没有 意愿 去 学 习 一 种 新 
的 交互 技能 ) 等 用 户 来 说 尤其 重要 。 

。 现在 已 经 有 了 一 个 使 用 自然 语言 记录 的 、 能 够 使 用 计算 机 来 访问 的 、 存 有 巨 量 信 
息 的 数据 存储 。 信 息 持续 地 以 书籍 、 新 闻 、 商 业 和 政府 报告 及 科技 论文 的 形式 产 
生出 来 ， 它 们 中 相当 大 的 部 分 可 以 在 线 访问 。 一 个 需要 大 量 信息 的 系统 必须 能 够 
处 理 自然 语言 ， 以 检索 在 计算 机 上 可 获得 的 大 量 信息 。 

。 在 自然 语言 处 理 中 ， 人 工 智 能 的 许多 问题 都 有 非常 清晰 、 明 确 的 形式 ， 因 此 它 是 
一 个 实验 通用 理论 的 好 领域 。 

自然 语言 处 理 的 发 展 为 开发 自然 语言 与 知识 库 和 自然 语言 翻译 问 的 接口 提供 了 可 能 。 
我 们 在 下 一 节 说 明 如 何 编写 一 个 适用 于 非常 秦 的 领域 的 自然 语言 查询 应 答 系 统 ， 在 这 个 系 
统 中 ， 格 式 化 的 语言 就 够 用 了 ， 且 在 该 语言 中 只 存在 少量 的 歧义 (如 果 有 的 话 )。 田 外 一 个 
极端 的 例子 是 浅显 但 范围 宽广 的 系统 ， 如 例 6-16 和 例 7-13 中 的 帮助 系统 。 开 发 一 个 既 有 
深度 又 有 广度 的 可 用 系统 是 困难 的 。 

任何 一 个 自然 语言 理解 理论 都 具有 三 个 重要 的 方面 

句法 ”句法 描述 了 语言 的 形式 。 通 常 使 用 文法 来 规定 。 自 然 语言 要 比 作为 描述 多 辑 和 
计算 机 程序 的 人 工 语言 的 形式 语言 更 加 复杂 。 

语义 ”语义 提供 了 语言 的 话语 或 句子 的 含义 。 尽 管 已 有 通用 的 语义 理论 ， 但 当 我 们 为 
一 个 特定 领域 建造 一 个 自然 语言 理解 系统 时 ， 我 们 会 努力 使 用 最 简单 的 表示 形式 。 例 如 ， 
在 下 面 的 开发 中 ， 知 识 库 中 有 一 个 从 字 到 概念 的 固定 的 映射 关系 ， 该 映射 对 于 许多 领域 来 
说 都 是 不 合适 的 但 却 简化 了 开发 。 

语 用 语 用 解释 了 话语 是 如 何 与 环境 建立 联系 的 。 为 理解 语言 一 个 Agent 应 该 考虑 
更 多 而 不 是 仅 考 虑 句子 ; 它 必须 考虑 句子 的 上 下 文 、 环 境 的 状态 、 讲 话 者 和 听众 的 目标 、 
特殊 的 惯例 等 。 

为 理解 这 些 方面 的 区 别 ， 考 虑 下 面 这 些 可 能 出 现在 AT 教科 书 开头 的 话 : 

。 这 是 一 本 关于 人 工 智 能 的 书籍 。 

。 绿色 青蛙 睡眠 深沉 。 

。 无 色 的 绿色 观念 睡眠 狂暴 。 

。 狂暴 地 睡眠 观念 绿色 无 颜色 。 

第 一 句 出 现在 如 本 书 的 开头 是 合适 的 ， 它 有 很 好 的 句法 、 语 义 和 语 用 。 第 二 句 有 很 好 
的 句法 和 语义 ,但 出 现在 一 本 人 工 智能 书籍 的 开头 则 显得 很 怪异 ; 从 而 它 在 该 上 下 文中 没 
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有 很 好 的 语 用 。 后 面 两 句 由 语言 学 家 Noam Chomsky[1957] 给 出 。 第 三 名 有 很 好 的 句法 ， 
但 其 语义 却 无 意义 。 第 四 名 的 句法 是 错误 的 ; 它 完 全 无 意义 ， 无论 是 句法 上 、 语义 上 和 语 
用 上 均 是 如 此 。 


在 本 书 中 ,我 们 不 想 全 面 介绍 计算 语言 学 。 关 于 这 方面 的 介绍 请 参考 未 章 最 后 列 出 的 ， 


参考 文献 。 
12.6.1 在 上 下 文 无 关 文法 中 使 用 限定 子 句 


本 节 说 明 如 何 使 用 限定 子 句 来 表示 自然 语言 的 句法 和 语义 。 

语言 由 其 合法 的 句子 来 定义 。 句 子 是 符号 的 序列 。 合 法 的 句子 由 文法 来 规定 。 

我 们 的 第 一 个 对 自然 语言 的 近似 是 上 下 文 无 关 文 法 。 一 个 上 下 文 无 关 文 法 (context- 
free grammar) 是 一 组 重 写 规则 (rewrite rule) 的 集合 ， 使 用 这 些 规则 将 非 终 结 Cnom 
terminal) 符 号 转换 成 一 个 终结 符号 和 非 终 结 符号 的 序列 。 该 语言 的 句子 是 一 个 根据 重 写 规 
则 生成 的 终结 (terminal) 符 号 的 序列 。 例如， 下 面 的 文法 规则 : 


sentence > noun_ phrase, verb_phrase 
意味 着 一 个 非 终 结 符号 sentence( 句 子 ) 可 以 是 一 个 PEE not etepbanaa ects verb_ 
phrase( 动 词 短 语 )。 符 号 “>” 的 意思 是 “可 重 写 为 “”。 如 果 自 然 语言 的 一 个 句子 被 表示 为 
一 个 字 的 列表 ， 则 该 规则 表示 如 果 一 个 字 的 列表 是 一 个 名 词 短语 后 跟 一 个 动词 短语 ， 那 么 
这 个 字 的 列表 就 是 一 个 句子 : 

sentence(S)<-noun_phrase(N) ,verb_phrase(V) .append(N,V,S) 

为 说 明 “computer” 是 一 个 名 词 ， 你 要 写成 : 

noun([ computer |) 

另 有 一 个 上 下 文 无 关 文 法 规则 的 简单 表示 方法 称 为 限定 子 名 文法 (definite clause 
grammer，DCG) 。 该 文法 使 用 了 限定 子 句 ， 不 需要 明确 的 append。 每 一 个 非 终 结 符号 s 
变 成 一 个 有 两 个 参数 的 谓词 ; D Te); 该 谓词 的 含义 是 列表 T: 是 列表 T WAR. H 
Ti 中 位 于 Te 之 前 的 字形 成 了 范畴 s 的 字 序 列 。 列 表 T 和 也 一 起 构成 由 非 终 结 符号 规定 
的 那 类 字 的 差异 列表 (difference list) ， 因 为 正 是 这 些 差异 构成 了 句法 范畴 。 

【 例 12-33] 在 这 个 表示 方式 下 ， 如 果 列 表 T: EIR NT WAR. BIT, 中 位 于 T: 之 前 的 
所 有 字形 成 了 一 个 名 词 短语 ， 则 noun_phrase(T,, T) HH. T: 为 句子 的 剩余 部 分 。 你 可 认为 
T: 表示 了 列表 中 的 一 个 位 置 ， 而 该 位 置 在 位 置 T 之 后 。 差 异 列表 表示 了 这 两 个 位 置 之 间 的 字 。 

原子 符号 

noun _phrase([the, student, passed ,ihe,course,withya,computer|: 

[ passed ,the, course, with,a,computer}) 
在 这 个 特定 解释 中 为 真 ， 因 为 “the student” 构 成 了 一 个 名 词 短语 。 < 
文法 规则 


sentence >» noun_phrase,verb_phrase 
a eee To es Tı ps 一 个 名 词 短 语 ， HH Ti 和 某 个 T: 之 间 有 一 个 动词 
sentence 
To T, T: 
Se 
noun _ phrase verb_phrase 


这 个 文法 规则 可 表示 为 如 下 的 子 句 : 
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sentence (To 5 T) 
noun_phrase(T,.T;) A 
verb_phrase(T,; ,Tz) 
一 般 的 ， 规 则 
h >b; sb: grr oh 
HELE h Hb SR, eo Rams, 构成 ， 且 可 记 为 下 面 的 限定 子 句 ， 
CTD o T= 
bi (To TD) 人 
bz CTi yy Tz) A 


sti Pia RER 
并 使 用 下 面 的 解释 : 


HPT, 为 新 的 变量 。 
如 果 想 说 非 终 结 符号 h 映射 为 终结 符号 厂 ，…，t,， 则 可 记 为 : 
Kilit rst |T],T) 
并 解释 为 : 
2 
bis? ri 


因此 ,如果 十 ==[a = tn |T:2]; MAT, TIJA. 


【 例 12-34) 说 明 非 终结 符号 五 可 重 写 为 非 终结 符号 4 后 跟 非 终结 符号 5， 后 跟 终结 符 


号 c 和 a， 后跟 非 终结 符号 e， 后 跟 终结 符号 f 和 非 终 结 符号 g 的 规则 可 记 为 : 


hi— wasb,[lcdl,e lf],g 
且 可 表示 为 : 
h(Ts Ti) 一 
ac 人 
eTysLesad |TADA 
e(Ts [f|Ts])) A 
g(T;.T;) 
注意 ， 转 换 T:=Le, dlT;] 及 T, 二 [fITs] 是 人 为 完成 的 。 


< 


图 12-6 完成 了 英语 的 一 个 简单 文法 的 公理 化 。 图 12-7 给 出 了 字 的 一 个 简单 字典 及 其 


部 分 语言 ， 该 语言 可 用 图 12-6 中 的 文法 。 
【 例 12-35) 对 于 图 12-6 中 的 文法 和 图 12-7 中 的 字典 ， 下 面 的 查询 


ask noun_phrase(( the, student, passed ,the, course, witha, computer]; R) 
将 返回 


R=[ passed .the,course, with,a,computer | 


句子 “The student passed the course with a computer.” 有 两 个 不 同 的 解析 ， 一 个 是 使 


用 子 句 的 如 下 实例 : 
verb_ phrase(( passed ,the, course, with.a scomputer], [D 


verb([ passed ,the, course, with,a,computer |, 
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[the, course, with,a,computer]) A 
noun_phrase([the, course, with,a,computer |.(.]) A 


peL 


% 一 个 句子 是 一 个 名 词 短 语 后 跟 一 个 动词 短语 
sentence(T,, T) 
noun_phrase(T,, T,) A 
verb_phrase(T,, Tr) 
% 名 词 短语 是 一 个 限定 符 后 跟 修 饰 符 再 女 一 个 名 词 ， 最 后 跟 一 个 可 选 的 介词 短语 
noun_phrase( To, Ti)“ 
det(T,, TON 
modifiers(T;+ Ta) A 
noun(T,, T;)A 
PACT; Ty) 
Ye 修饰 符 由 可 能 为 空 的 形容 词 序 列 组 成 
modifiers(T, T) 
modifiers(T,, T:)<- 
adjective(T,, Tı) A 
modi fiers(T,, T:) 
% 可 选 的 介词 短语 或 者 为 空 或 者 为 一 个 介词 后 跟 一 个 名 词 短 语 
pp lT, T) 
pplTo, Ty) 
preposition(T,, T,) A 
noun_phrase(T,, T:) 
% 动词 短语 是 一 个 动词 后 跟 一 个 名 词 短 语 利 一 个 可 选 的 介词 短语 
verb _phrase(T,,» T,)<— 
verb( Tos, TDA 
noun_phrase(T,, T) A 
pp(T:, Ts) 





图 12-6 英语 的 一 个 非常 有 限 的 子 集 的 一 个 上 下 文 无 关 文 法 
另 一 个 使 用 的 实例 是 : 


verb _phrase(( passed the course, witha, computer | LD det(T, T) 
det({a|T], T) 


det([the|T], T) 
noun([ student | ly TI 
noun( [course | Fi, T) 


verb([ passed ,the ,course, witha, computer |, 
[the,course,with,a,computer]) 人 
noun_phrase( (the .course, with sa computer |,| with ,a,computer |) A 
pp (Lwith,a,computer].[]) 
在 第 一 种 情况 中 ,介词 短语 修饰 的 是 名 词 短 语 ( 即 “the 


noun([ computer | Th D 
adjective([ practical | Ti. T 


course is with a computer”); 在 第 三 种 情况 中 ， 介 词 短语 修饰 的 “| verbCpassed |T]; TD 





是 动词 短语 ( 即 “the course was passed with a computer”). | preposition([with |T]. T) 
12.6.2 增强 文法 12-7 一 个 简单 的 字典 

一 个 上 下 文 无 关 文法 不 足以 表达 自然 语言 (如 英语 ) 的 文法 的 复杂 性 。 可 以 添加 两 种 机 
制 使 该 文法 具有 更 强 的 表达 能 力 : 


。 非 终结 符号 的 额外 论 元 。 

。 规则 中 的 任意 条 件 。 

额外 论 元 将 允许 我 们 做 如 下 几 件 事情 : 构建 解析 树 、 表 示人 句子 的 语义 结构 、 增 量 式 地 
建立 表示 了 针对 数据 库 提出 的 问题 的 查询 及 积累 有 关 短 语 一 致 的 信息 (如 数 、 时 态 、 性 和 
人 称 上 的 一 致 )。 
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12.6.3 为 韭 终 结 符号 建立 结构 


你 可 以 为 谓词 增加 一 个 额外 的 论 元 来 表示 一 个 解析 树 、 构 成 形 如 下 面 的 规则 : 

sentence (To » Tz »s( NP,VP))<— 
noun_phrasel To Tı: NP) A 
verb_phrase(T, Ta VP) 

其 含义 为 句子 的 语法 树 具有 形 如 s(NP，VP) 的 形式 ， 其 中 NP 是 针对 名 词 短语 的 解 
析 树 ，VP 是 针对 动词 短语 的 解析 树 。 

如 果 你 想 从 句法 分 析 中 得 到 一 些 结果 ， 而 不 仅 是 判断 句子 是 否 有 合法 的 句法 ， 则 上 述 
形式 就 很 重要 了 。 解 析 树 概念 是 上 述 需要 的 简单 形式 ， 因 为 它 不 能 充分 表示 句子 的 含义 或 
“深层 结构 ”。 例 如 ， 你 自然 想 识别 出 "Alex 讲授 AI 课程 ?和 “AI 课程 由 Alex 讲授 ”具有 同 
一 含义 ， 区 别 仅 是 分 别 使 用 了 主动 和 被 动 的 语气 。 


12.6.4 封装 的 文本 输出 


在 文法 的 定义 中 没有 要 求 英 语 输入 ， 也 没有 要 求 输出 为 解析 树 。 一 个 带 有 某 句子 界限 
意义 的 文法 规则 的 查询 和 一 个 表示 了 该 句子 的 自由 变量 可 以 生成 符合 上 述 意 义 的 句子 。 

文法 规则 的 一 个 用 途 是 为 逻辑 项 提供 封装 的 文本 输出 ; 输出 的 英语 句子 与 逻辑 项 相 
匹配 。 这 对 于 产生 原子 、 规 则 和 问题 的 英语 版 本 ， 使 那些 可 能 并 不 知道 这 些 符号 的 特定 
解释 ， 甚 至 也 不 知道 正规 语言 的 名 法 的 用 户 能 够 容易 地 理解 这 些 生成 的 内 容 是 很 有 
用 的 。 


【 例 12-36】 图 12-8 给 出 了 生成 关于 课表 信息 的 封装 文本 的 文法 。 例 如 ， 下 面 的 查询 
ask trans(scheduled(w11,cs422,clock(15,30) yabove(csci333)), Ts[ ]) 


产生 的 解答 为 T=(the. winter, 2011, session, of, the, advanced, artificial, intelligence, 
course, is, scheduled, at, 3,:, 30, pm, in, the, room, above, the, computer, science, 


department，office]。 这 个 列表 可 写成 一 个 句子 提供 给 用 户 。 . < 


5 trans(Terms Tos TIAN, MH Term 转换 成 的 字 串 包含 在 Tv 与 Ti 的 差异 列表 中 
trans(scheduled(S, C, L, R). T,, Ty) 
trans(session(S), Tis Lof [TDA 
trans(course(C), Ta, [is, scheduled, at |T: DA 
trans(time(L), Ts, Lin|T:D A 
trans(room(R), T, Ts). 
trans(session(wl1), [the, winter, 2011, session | TJ, T). 
trans(course(cs422), [the, advanced, artificial, intelligence, course |T], Ty 
trans(time(clock(0, M)), [12,;, M, am|T], ERs 
trans(time(clock(H, M)), [H,:. M, am|T], N+ 
H>0A H<12. 
trans(time(clock(12, M)), [12;:; M, pm|T], T). 
trans(time(clock(H, M)), [H1,:, M, pm|T], T)<- 
H>12A 
Hi ia H= 12: 
trans(room(above(R)), [thes room, above |T,], T)<— 
trans(room(R), T,» T) 
trans(room(csci333), [the, computer, science, department, office |T], TA 





图 12-8 封装 英语 的 输出 的 文法 
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这 个 文法 可 能 对 于 理解 自然 语言 没有 用 处 ， 因 为 它 需要 非常 格式 化 的 英语 ， 用户 不 得 
不 对 项 进行 确切 的 翻译 以 得 到 一 个 合法 的 解析 。 


12.6.5 强制 约束 


自然 语言 中 施加 了 一 些 强 制约 束 ， 如 “a students eat” 不 是 一 个 合法 的 句子 。 句 子 中 的 
” 字 必 须 满足 一 些 约 定 。 句 子 “A students eat” 没 有 满足 数 上 的 约定 ， 该 约定 说 明了 和 名词 与 动 
词 使 用 单数 形式 还 是 复数 形式 。 

数 的 一 致 可 通过 参数 化 非 终结 符号 (引入 数 并 确保 语句 各 部 分 在 数 上 一 致 ) 强 制 文法 中 
对 数 的 约束 。 你 只 需 为 相关 的 非 终结 符号 添加 一 个 额外 的 论 元 。 

[Gi 12-37] 图 12-9 的 文法 判定 句子 “a students”, “the student eat” 或 “the students 
eats” 非 法 ， 因 为 它们 在 数 上 均 不 一 致 ， 但 判定 句子 “a green student eats”, “the students” 
或 “the student” 为 合法 ， 因 为 “the” 所 限定 内 容 可 为 单数 也 可 为 复数 。 





% 一 个 句子 是 一 个 名 词 短 语 后 跟 一 个 动词 短语 | 
sentence(T,, Tı, Num, s(NP, VP)) 一 
noun_phrase(T,, Tı, Num, NP) A 
verb_phrase(T,, Tı, Num, VP) 
% 一 个 名词 短 语 是 空 或 是 一 个 限定 词 后跟 一 个 修饰 语 再 至 一 个 名 词 及 一 个 可 选 的 介词 短语 
noun_phrase(T, T, Num, nonp) 
noun _phrase(T,, Tı, Num, np(Det, Mods, Noun, PP))<— 
det(T,, Ti, Num, Det) A 
modi fiers(T,, Tz» Mods) 人 
noun(T;, Ta, Num, Noun) 人 
PoC], Ty, PE) 
% 一 个 动词 短语 是 一 个 动词 后 跟 一 个 名 词 短 语 再 跟 一 个 可 选 的 介词 短语 
verb _phrase(To, T}, Num, vp(V, NP, PP))<— 
verb(To, Tis Num, V) A 
noun_phrase(T,, T:, N2, NP) A 
ppCTs Ty» PP) 
% 一 个 可 选 的 介词 短语 是 空 或 是 一 个 介词 后 跟 一 个 名 词 短 语 。 这 里 仅 给 出 为 空 的 情况 。 
PCT, T, nopp) 
% 修饰 符 是 一 系列 的 形容 词 。 这 里 仅 给 出 为 空 的 情况 。 
modifiers(T, T, [J]) 
% 字典 
det([a |T]; T, singular, inde finite) 
det([the|T], T, Num, definite) 
noun([ student | T], T, singular, student) 





noun([ students | T], T, plural, student) 


verb(Leats|T], T, singular, eat) 
verb(Leat|T], T, plural, eat) 





图 12-9 强制 数 的 一 致 并 建立 解析 树 的 文法 
为 解析 句子 “the student eats”， 你 可 提出 查询 : 


ask sentence([ the, student ,eats |,[_],Num,T) 
甚 返回 的 解答 为 : 
Num= singular, 
T=s(np(de finite.[],student,nopp) ,up(eat,nonp,nopp)) 
为 解析 句子 “the students eat”， 你 可 提出 查询 : 
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ask sentence([ the, students,eat|,[_], Num, T) 
其 返回 的 解答 为 : 
Num= plural, 
T=s(np(de finite ,[],student.nopp) .up(eat,nonp,nopp)) 
为 解析 句子 “a student eats”， 你 可 提出 查询 : 
ask sentence((a,.student,eats],{_],Num,T) 
其 返回 的 解答 为 : 
Num= singular, 
T=s(np(inde finite, |, student. nopp) ,vp(eat nonp,nopp)) 
请 注意 ， 各 解答 的 区 别 仅 在 于 主语 是 否 为 单数 及 限定 词 是 否 是 限定 的 。 < 


12.6.6 建立 自然 语言 与 数据 库 的 接口 


你 可 以 增强 前 面 的 文法 以 实现 一 个 简单 的 自然 语言 与 数据 库 间 的 接口 。 这 个 想法 是 将 
短语 分 解 为 在 数据 库 中 可 被 查询 的 形式 ， 而 不 是 转换 为 解析 树 的 形式 。 例 如 ， 一 个 名 词 短 
语 可 转换 成 带 有 一 组 谓词 的 个 体 ， 这 组 谓词 用 于 定义 该 个 体 。 

【 例 12-38] 短语 “a female student enrolled in a computer science course” 可 被 转换 为 : 


508 answer (X)<— 
? female(X) A student(X) N enrolled-in( X,Y) N course(Y) 
529 A department(Y ,comp_science) ai 


让 我 们 先 不 考虑 量化 ， 如 “all”*"、“a” 和 “the” 是 如 何 转换 成 量词 的 。 你 可 以 通过 名词 短 
语 构 造 一 个 查询 并 得 到 一 个 个 体 及 由 和 名词 短语 施加 到 该 个 体 上 的 约束 列表 。 适 用 的 文法 规 
则 由 图 12-10 给 定 ， 且 该 文法 规则 使 用 了 图 12-11 列 出 的 字典 。 


% 一 个 名 词 短 语 是 一 个 限定 词 后 对 修 饰 语 再 跟 一 个 名 词 及 可 选 的 介词 短语 
noun_phrase(T,, Ty,» Obj, Caos C= 
det(To, Ty» Obj, Cor Gi A 
modi fiers(T,, Tz, Obj; Ci. CoA 
noun(T;, T:s Obj, Ce, CsA 
PPCT,, Tas Obj, Cis Ca) 
% 修饰 语 由 一 系列 的 形容 词组 成 
modifiers(T, T, Obj, C, ©) 
modifiers(Ts» Tz, Obj, Css C= 
adjective(T,, Tı, Obj» Cas CDA 
modi fiers(T;, T, Obj, Cy, Cz) 
% 一 个 可 选 的 介词 短语 是 空 或 是 一 个 介词 后 跟 一 个 名 词 短语 
到 CT Te Obj, Gi © 
PPCTos Tes Os Gay GC 
preposition(T,, Ti, Oi, O: Coy CDA 
noun_phrase(T,, Tz, Oz» Cis Cy) 





12-10 构造 一 个 查询 的 文法 
在 这 个 文法 中 ， 
noun_phrase(Ty ,T; »O,Cy »C,) 
的 意思 是 列表 T BART 的 结尾 ， 且 列表 Th 中 位 于 列表 T 之 前 的 字 构 成 一 个 名 词 短 
语 。 这 个 名 词 短语 指 代 了 个 体 O。C。 是 Ci 的 结尾 ， 且 出 现在 C 但 不 出 现在 Co 的 公式 是 
该 名 词 短 语 施加 在 个 体 O 〇 上 的 约束 。 
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der, TY O Gy OC); 

det(La|T]. T, O, C, ©). 

det([the|T], T, O, C, ©). 

noun({ course | T], Ts OY e Ecour tO | c)). 
noun([student|T], T, O, C, [student(O) | CJ). 
noun([john|T], T, john, C, O); 
noun([és312|T], T, 312, C, C). 


adjective(( computer, science |T], T, O, C, [dept(O, comp_science) | C]). 
adjective([ female |T], T, O, C, [femate(O) | CI). 
preposition(( enrolled, in| T]; Ts O,, Oy, Ci Lenrolled(O,. O,) Woah 








图 12-11 用 于 构造 查询 的 一 个 字典 
Cj 12-39) 查询 


ask noun_phrase(a,computer,science,course|,{_],Obj+L].C0) 
将 返回 
C=[course(Obj) ,dept(Obj ,comp_science) | 
查询 
ask noun_phrase(La, female, student,enrolled,in,a.com puter, 
science, course |s{]+P,(],©) 


返回 
C=[course(X) ,dept(X .comp_science) ,enrolled(P.X) ,student(P), 
female(P) | 
如 果 从 数据 库 中 查询 的 是 列表 C 中 的 元 素 ， 且 上 述 数据 库 使 用 了 这 些 关 系 和 常量 ， 则 
能 够 精确 地 找 出 选修 了 计算 机 科学 (computer science) 课 程 的 女 学 生 。 a 
12.6.7 ÐR 


至 此 为 止 ， 我 们 假设 了 自然 语言 的 一 个 非常 简单 的 形式 。 我 们 的 目标 是 明确 哪些 内 容 
能 够 通过 简单 的 工具 来 容易 地 实现 ， 而 不 是 去 全 面 地 研究 自然 语言 。 有 用 的 数据 库 前 端 可 
用 这 些 工具 来 构建 ， 而 这 些 工具 可 通过 如 有 足够 约束 的 域 和 必要 的 询问 用 户 ( 如 有 歧义 的 
解释 时 ) 来 表示 。 

对 于 自然 语言 处 理 的 讨论 假设 了 自然 语言 是 可 组 成 的 ; 即 整体 的 含义 可 由 部 分 的 含义 
导出 。 组 合 性 在 一 般 情况 下 是 一 个 不 成 立 的 假设 。 你 通常 必须 知道 谈论 的 上 下 文 和 当时 的 
语 境 以 辨别 话语 的 含义 。 存 在 许多 类 型 的 歧义 ， 这 些 歧义 只 能 通过 理解 上 下 文 来 解决 。 

例如 ， 如 果 没 有 上 下 文 和 语 境 的 知识 ， 你 总 是 不 能 够 正确 确定 一 个 描述 的 引用 。 一 个 
描述 并 不 总 是 指向 一 个 唯一 确定 的 个 体 。 

【 例 12-40】 考虑 下 面 的 段落 ， 

The student took many courses. Two computer science courses and 

one mathematics course were particularly difficult. The mathematics 

段 中 所 指 由 上 下 文 来 定义 ， 而 不 是 仅 由 描述 “The mathematics course” 来 定义 。 此 处 可 
能 有 多 个 数学 课程 (mathematics course)， 但 我 们 从 上 下 文 可 知 该 短语 指 的 是 该 学 生 选 修 
的 特别 难 学 的 那 门 数学 课程 。 a 

WERE EA “the” Mit”, 或 者 允许 字 有 多 种 含义 ， 则 在 数据 库 应 用 中 就 会 产生 许多 
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引用 问题 。 上 下 文 用 来 销 除 自然 语言 中 的 这 些 玻 义 。 考 虑 下 面 的 句子 : 
Who is the head of the mathematics department? 


Who is her secretary? 
显然 ， 上 述 句 子 中 的 “Per 的 指 代 是 清楚 的 ， 只 要 读者 理解 了 “head” 是 指 人 ， 有 性 的 
区 别 ， 而 系 (department) 却 没有 性 的 区 分 。 


12.7 相等 


有 些 时 候 使 用 多 个 项 来 命名 同一 个 体 是 有 用 的 。 例 如 ,项 4X4、2*:、273 一 257 及 16 
都 表示 同一 个 数字 。 有 些 时 候 ， 你 想 让 每 一 个 名 字 都 引用 不 同 的 个 体 。 例如 ， 你 希望 为 大 
学 里 的 不 同 课程 制定 独立 的 名 字 。 有 些 时 候 ， 你 并 不 知道 两 个 名 字 是 否 指 代 了 同一 个 体 ， 
如 你 不 知道 早晨 8 点 的 派送 员 与 下 午 1 点 的 派送 员 是 否 是 同一 个 人 。 

本 节 讨 论 相等 的 作用 一 一 它 允 许 我 们 可 否 使 用 两 个 项 来 指 代 环境 中 的 同一 个 体 。 请 注 
意 ， 在 本 章 前 面 介绍 的 限定 子 句 语言 中 ， 所 有 的 解答 都 是 有 效 的 ， 不 管 那些 项 是 否 指 代 了 
同一 个 体 都 是 如 此 。 

相等 是 一 个 特殊 的 谓词 符号 ， 具 有 一 个 标准 的 、 独 立 于 域 的 特定 解释 。 

WRG i Ale, 表示 了 解释 工 中 的 同一 个 体 ， 则 项 再 与 项 所 在 该 解释 中 相等 (equal)， 
EA h =t 

相等 不 是 相似 。 如 果 a Mb 均 为 常量 且 a 二 bp， 则 不 是 说 有 两 个 事物 相似 或 者 是 完全 一 
样 。 与 此 相反 ， 它 的 含义 是 同一 事物 有 两 个 名 字 。 

【 例 12-41] 考虑 图 12-12 给 出 的 两 把 椅子 的 世界 。 

在 这 个 世界 中 ，chairl 二 chair2 不 为 真 ， 即 使 这 两 把 椅子 
完全 相同 也 是 如 此 ; 如 果 没 有 椅子 的 确切 的 位 置信 息 ， 
就 无 法 区 分 它们 。 此 时 有 一 种 情况 是 chairOnRight = 
chair2。 此 时 并 不 表示 位 于 右边 的 椅子 (chairOnRight) 与 
chair2 相似 ， 而 是 说 它 就 是 chair2。 < chair} chair2 


图 12-12 两 把 椅子 
12.7.1 允许 相等 断言 


如 果 你 不 允许 相等 断言 ， 那 么 与 一 个 项 相等 的 就 只 有 它 自己 。 一 旦 有 了 相等 断言 
XX 二 卫 ， 就 可 以 表达 相等 了 。 这 就 意味 着 对 于 任 一 个 基 项 t,t 指 代 了 同一 个 体 。 

如 果 你 想 允 许 使 用 相等 断言 (例如 想 表 达 chairOnRight 二 chair2)， 则 表示 与 推理 系统 
必须 能 够 从 知识 库 中 导出 其 相应 的 结论 ， 其 中 在 数据 库 中 包含 某 些 头 部 具有 相等 关系 的 子 
句 。 实 现 方 法 主要 有 两 种 。 第 一 种 类 似 于 谓词 那样 声明 公理 化 相等 。 第 三 种 是 为 相等 构建 
有 特殊 目的 的 推理 机 。 本 节 讨 论 这 两 种 方法 。 

1. 公理 化 相等 

相等 可 以 进行 如 下 的 公理 化 。 下 面 三 个 公理 表示 相等 是 自 反 、 对 称 、 传 递 的 。 

X=X 

X=Y+Y=X 

X=Z<X=YAY=2Z 

其 他 的 公理 依赖 于 语言 中 函数 和 关系 符号 的 集合 ， 因 此 ， 它 们 形成 了 公理 模式 Caxiom 
schema) 。 其 中 的 基本 思想 是 你 可 以 车 用 一 个 项 替换 函数 和 关系 中 的 相等 的 项 。 对 于 每 一 
个 于 元 函数 符号 了 ， 有 一 个 如 下 形式 的 规则 : 
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FQ ee X= $Y eee YI HY Ae AX, SY, 

对 于 每 一 个 元 谓词 符号 轧 ， 有 一 个 如 下 形式 的 规则 : 

POX ys XD PCV YA My HV Ao A X= 

【 例 12-42] 二 元 函数 cons(X, MSBP RHAH: 

cons X; ,X2)=cons(Y, ,¥2.)<X, =Y, AX: =Y, 

三 元 关系 prop(I，P，V) 需 要 下 面 的 公理 : 

prop(]; ,Pi,Vi)<—prop(l;,P, ,Vs) Ah =I; NP=P;: AVi =V: < 

将 这 些 公理 显 式 地 作为 知识 库 的 一 部 分 会 使 得 推理 效率 非常 低 。 在 自 顶 向 下 深度 优先 
的 解释 器 中 使 用 这 些 规则 不 能 保证 算法 能 够 停止 。 例 如， 对 称 性 公理 会 造成 无 限 的 循环 ， 
除非 注意 到 了 相同 的 子 目标 。 

2. 特殊 目的 的 相等 推理 

参数 化 调整 (paramodulation) 是 一 个 扩充 证 明 过 程 以 实现 相等 的 方法 。 其 基本 思想 是 ， 
WRA =t WEHE a 的 地 方 均 可 被 性 兰 代 。 因 此 ， 相 等 此 时 可 被 看 做 是 重 写 规 则 
(rewrite rule) ， 在 其 中 用 一 组 项 替换 另 一 组 相等 的 项 。 如 果 你 能 够 为 每 一 个 个 体 选 择 一 个 
规范 表示 (canonical representation) ， 则 这 个 方法 工作 最 好 ， 其 中 规范 表示 是 一 个 项 ， 而 

表示 该 个 体 的 其 他 的 方式 可 以 映射 到 它 。 

一 个 经 典 的 例子 是 数 的 表示 。 存 在 许多 表示 了 同一 个 数 的 项 (如 4X4, 1343, 273— 
257、2: 、42 、16) ， 但 我 们 通常 将 数字 序列 (以 十 进 制 表 示 ) 作 为 数字 的 规范 表示 。 

大 学 使 用 学 号 为 每 一 个 学 生 提供 了 一 个 规范 表示 。 从 而 ， 同 名 的 不 同学 生 可 被 区 分 开 
来 ， 同 一 个 学 生 的 不 同和 名字 也 可 映射 到 该 学 生 的 学 号 上 。 


12.7.2 唯一 名 字 假 设 


不 可 知 论 者 怀疑 每 一 个 项 的 相等 ， 因 此 期 望 着 用 户 以 公理 化 的 形式 指明 哪些 名 字 指 代 
同一 个 体 、 哪 些 名 字 指 代 不 同 个 体 。 与 此 不 同 ， 采 用 不 同 的 基 项 指 代 不 同 的 个 体 这 样 的 假 
设 常 常会 使 问题 变 得 更 简单 。 

【 例 12-43] 考虑 学 生 数 据 库 的 一 个 示例 ， 其 中 每 位 学 生 必须 有 两 门 科学 选修 课 。 假 
设 某 位 学 生 已 经 通过 了 math302 和 psyc303 RE; 那么 ， 如 果 你 知道 math302F7 psyc303, 
则 你 仅仅 会 知道 他 们 是 否 已 经 通过 了 两 门 课程 。 也 就 是 说 ， 常 量 math302 和 psyc303 指 代 
不 同 的 课程 。 因 些 ， 你 必须 知道 哪些 课程 号 指 代 不 同 的 课程 。 与 为 个 个 体 编写 nnX (n 一 
1) 条 不 相等 公理 相 比 ， 假 设 有 每 一 个 课程 号 指 代 了 不 同 的 课程 这 一 惯例 会 更 好 ， 并 且 这 样 
做 也 可 以 避免 使 用 不 相等 公理 。 < 

这 种 处 理 相 等 的 方法 被 称 为 唯一 名 字 假 设 。 

唯一 名 字 假 设 (unique names assumption，UNA) 是 这 样 的 一 个 假设 : 不 同 的 基 项 表示 
AMA. tHE. WFAA AMG A, BE Ar, HEA HALE 
“不 相等 ”。 

请 注意 ， 这 并 不 遵循 限定 子 名 语言 的 语义 。 对 于 上 述 语义 来 说 ， 不 同 的 基 项 如 Me 
可 以 指 代 同 一 个 体 也 可 指 代 不 同 个 体 。 

在 目前 提出 的 逻辑 中 ， 唯 一 名 字 假 设 仅仅 在 子 名 体 中 存在 明确 的 不 相等 或 在 子 名 的 头 
中 存在 明确 的 相等 时 才 有 意义 。 有 了 唯一 名 字 假 设 ， 除 了 前 面 介绍 的 在 子 句 中 定义 相等 
外 ， 相 等 并 不 出 现在 子 句 的 头 。 其 他 子 句 意味 着 相等 或 者 是 一 类 宛 余 或 者 是 违反 了 唯一 名 
字 公 理 。 
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唯一 名 字 假 设 可 使 用 下 面 的 对 不 相等 的 公理 模式 进行 公理 化 ， 其 中 由 对 于 相等 的 公理 
模式 连同 公理 模式 共同 组 成 : 
。 对 于 任意 不 同 的 常量 Hc, cAr. 


= 对 于 任意 不 同 的 函数 符号 fg, F®i: otal | X,-~g(Y,, 2 Yo ee 

。 对 于 任意 的 函数 符号 fo SKi s XIAN, +, VIX AY. 这 里 ， 对 于 
元 函数 符号 f， 共 有 个 该 模式 的 实例 (对 每 个 i 都 有 一 项 ，1 志 i<<n)。 

。 对 于 任意 函数 符号 SmE c, fX, s Xa) Ac. 


。 对 于 任意 出 现 了 XX 的 项 :( 其 中 t+ 不 是 项 XX), KX, 

有 了 这 个 公理 化 ， 两 个 基 项 是 不 相等 的 当 且 仪 当 它 们 不 能 合 一 时 ， 因 为 如 果 它 们 能 够 
合 一 则 它们 必定 相同 。 这 个 情况 对 于 非 基 项 并 不 成 立 。 例 如 ，a 天 X 有 一 些 为 真 的 实例 (如 
X 取 值 为 68)， 而 另 一 些 实例 为 假 ( 如 XX 取 值 为 a)。 : 

唯一 名 字 假 设 对 于 数据 库 应 用 是 非常 有 用 的 你 不 会 希望 在 数据 库 中 加 入 诸如 
kimf~sam, kimAchris 及 chris#~sam 的 子 句 。 唯 一 名 字 假 设 人 允许 我 们 使 用 每 一 个 名 字 指 
代 一 个 不 同 的 个 体 这 一 惯例 。 

有 些 时 候 ， 唯 一 名 字 假 设 是 不 合适 的 ， 如 2 十 2 了 4 就 是 错误 的 ，clark_kent 关 super- 
man 也 可 能 是 错误 的 例子 。 

有 了 崔 一 名 字 假 设 的 自 项 向 下 过 程 i 

包含 了 唯一 名 字 假 设 的 自 顶 向 下 过 程 不 应 将 不 相等 作为 另 一 个 谓词 来 处 理 ， 这 主要 是 
因为 对 于 任意 一 个 给 定 的 个 体 来 说 ， 存 在 着 太 多 不 同 的 个 体 。 

MRA—t+F AR OAL, WHR. Ae 有 如 下 三 种 情况 : 

1) 五 Alt 不 能 合 一 。 此 时 ， oAe 是 成 立 的 。 

fli. F(X, a, gCX))ASUCX), X, DERIK, AARMTMARA—. 

20 和 去 完全 一 致 ， 包 括 了 在 同一 位 置 使 用 了 同样 的 变量 。 此 时 ， 1 At 不 成 立 。 

PR. FCX, a, gX)AL(X, a, gX RIL. 

请 注意 ， 对 于 任何 一 对 基 项 ， 上 述 两 种 情况 必然 出 现 一 个 。 

3) 另外 , 三 去 的 一 些 实例 成 立 ， 另 一 些 实例 不 成 立 。 

fl, SiRF A&R SOW, a. g(Z))ALACX). X, Y). BRAS (CW. a, (DA 
FCX), X, YORK MGU 是 {XX/a,，W/tla)，Y/g(2Z)}。 一 些 该 不 相等 的 实例 一 一 其 基 实 
例 与 合 一 算 子 一 致 一 一 应 该 不 成 立 。 任 何 与 合 一 算 子 不 一 致 的 实例 应 该 是 成 立 的 。 与 其 他 
的 目标 不 同 ， 你 不 会 想 去 枚 举 每 一 个 成 立 的 实例 ， 因 为 那 就 意味 着 X 与 每 一 个 函数 合 一 
上 常量 不 为 a， 同 时 为 Y 和 2 枚 举 每 一 对 取 值 且 Y 与 g(2) 不 同 。 

可 扩展 自 项 向 下 证 明 过 程 以 处 理 唯 一 名 字 假 设 。 第 一 类 型 的 不 相等 可 以 成 立 而 第 二 类 
不 相等 不 成 立 。 第 三 类 不 相等 可 以 推迟 (delay)， 等 待 后 续 目 标 合 一 变量 ， 直 到 出 现 前 两 
类 不 相等 中 的 一 个 。 在 图 12-3 中 的 证 明 过 程 中 ， 在 选择 ac 的 体 中 的 一 个 原子 时 ， 为 推迟 
一 个 目标 ， 算 法 应 该 在 不 被 推迟 的 原子 中 选择 一 个 。 如 果 没 有 其 他 原子 可 选 且 前 两 种 不 相 
等 的 情况 均 不 出 现 ， 则 查询 应 该 成 立 。 总 有 一 个 不 相等 实例 成 立 ， 即 此 实例 中 的 每 一 个 变 
量 取 一 个 不 同 的 值 且 该 取 值 在 其 他 任何 地 方 均 不 出 现 。 当 发 生 这 种 情况 时 ， 用 户 在 解释 解 
答 中 的 自由 变量 时 必须 加 以 注意 。 此 解答 不 意味 着 其 对 于 自由 变量 的 每 一 实例 均 成 立 ， 而 
是 仅 对 其 中 的 某 些 实例 成 立 。 

【 例 12-44) 考虑 判定 一 位 学 生 是否 已 通过 了 至 少 两 门 课 程 的 规则 : 


passed_two_courses(S)= 
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CC A 
passed(S,C,) A 
passed(S,C,) 
passed (S,C)< 
grade(S,C,M) A 
M>50 

grade(mike,engl101,87) 

grade(mike, phys101,89) 

-对 于 查询 

ask passed_two_courses(mike) 

子 目 标 OAC, 是 否 成 立 尚 无 法 确定 ， 因 此 必须 推迟 判定 。 自 顶 向 下 证 明 过 程 可 以 选择 
passed(mike, Ci), HRC, 的 取 值 为 ezgzl0l1。 随 后 调用 passed (mike, CG), EE PRS 
调用 gradel(mike，C;，M)， 此 时 使 用 替换 {Cz/engi101，M/87} 能 够 使 得 推理 成 立 。 此 
时 ， 对 于 推迟 的 不 相等 判断 ， 其 变量 取 值 均 已 绑 定 且 能 够 做 出 不 相等 不 成 立 的 结论 。 

对 于 grade (mike，Cs，M)， 田 一 个 可 被 选择 的 子 名 返回 的 蔡 换 为 {Cs/phys101， 
M/89}。 此 时 ， 推 迟 判定 的 不 相等 中 的 变量 已 经 全 部 绑 定 ， 因 此 足以 测试 不 相等 是 否 成 
立 一 一 这 一 次 不 相等 是 成 立 的 。 随 后 可 继续 证 明 89 之 50， 从 而 子 目标 成 立 。 

根据 这 个 例子 ， 人 们 可 能 提出 这 样 的 问题 :“ 为 什么 不 在 最 后 再 判定 不 相等 是 否 成 立 ? 
这 样 不 是 不 需要 推迟 判定 了 吗 ?” 对 此 有 两 个 理由 。 第 一 ， 推 迟 可 能 会 使 效率 更 高 。 在 这 个 
例子 中 ， 对 不 相等 的 判定 可 在 测试 87>50 是 否 成 立 之 前 。 尽 管 这 个 特殊 的 不 等 式 测试 很 
快 可 以 完成 ， 但 在 许多 情况 下 及 早 判 定 是 和 否 违 反 了 不 相等 条 件 会 节约 大 量 的 计算 时 间 。 第 
二 ， 如 果 有 一 个 子 证 明 需 要 在 一 个 值 被 绑 定 之 前 就 被 返回 ， 则 证 明 过 程 需要 记 住 证 明 过 程 
中 的 不 相等 约束 ， 从 而 ， 如 果 将 来 的 合 一 违反 了 上 述 约束 则 证 明 过 程 就 会 失败 。 


12.8 完备 知识 假设 


为 扩展 5. 5 节 介 绍 的 完备 知识 假设 以 用 于 带 有 变量 和 函数 符号 的 多 辑 程序 中 ， 我 们 需 
要 关于 相等 的 公理 、 封 闭 领 域 及 关于 完备 性 的 更 复杂 的 概念 。 再 一 次 ， 这 里 定义 了 和 否定 即 
失败 (negation as failure) 的 一 种 形式 。 

LB 12-45] 假设 一 个 student 关系 定义 如 下 : 

student(mary) 

student( john) 

student ( ying) 

根据 完备 知识 假设 ， 可 以 说 上 面 三 个 学 生 即 是 全 部 的 学 生 ; 也 就 是 说 ， 

student(X)<X=mary VV X= john \ X= ying 

这 就 是 说 ， 如 果 X mary. john KH ying, WX 是 一 个 学 生 ， 且 如 果 X 是 一 个 学 
EMX 必 为 上 述 三 人 之 一 。 特 别 地 ，Kim 不 是 一 个 学 生 。 

要 得 出 一 student(kim) 这 一 结论 ， 需 要 证 明 kim 关 mary \kimAjohn\ kim~ying. HA 
导出 这 些 不 相等 结果 ， 需 要 使 用 唯一 名 字 假 设 。 a 

完备 知识 假设 包括 唯一 名 字 假 设 。 因 此 ， 我 们 在 本 节 的 后 续 部 分 假设 了 关于 相等 和 不 
相等 的 公理 。 

FA 

PC ttrt) B 


536 


537 


538 


356 BORD ”个体 与 关系 的 推理 


的 Clark 范式 (clark normal form) #24] 

PWV» Vis AW SW, Vi Si Ar AV =t AB 
HH, Vio. Vi Ek CERF PRES. Wo =, Wn 是 子 句 中 的 原始 变 
E. “PERAE”. 4AFRMR—-TRFFAN, BAH. 


设 所 有 关于 p 的 子 句 均 已 写 为 Clark 范式 形式 ， 且 使 用 同一 组 引入 的 变量 ， 有 : 
PCV, y+ Vi)<B, 


PCV ++ VB, 
其 等 价 于 : 
PCV, 0+ Vid B; V- VB。 
这 个 蕴含 式 在 逻辑 上 等 价 于 初始 的 子 句 集合 。 
谓词 p 的 Clark 完备 化 (Clark's completion) 是 如 下 的 等 价 : 
VV VVpVi, ot, V) eB, VVB, 
其 中 ， 体 中 的 否定 即 失 败 (~~) 车 换 为 标准 的 逻辑 否定 (一 )。 完 备 化 意味 着 pV = Va) 
为 真 当 且 仅 当 至 少 有 一 个 体 B; AH. 
知识 库 的 Clark 完备 化 由 每 一 个 谓词 符号 的 完备 化 以 及 关于 相等 和 不 相等 的 公理 组 成 。 
【 例 12-46] 对 于 子 句 
student(mary) 
student( john) 
student( ying) 
其 Clark 范式 是 : 
student(V)<-V=mary 
student(V)=-V = john 
student(V)<-V = ying 
其 等 价 于 : 
student(V)<V=mary \ V = john V V = ying 
谓词 student 的 完备 化 是 : 
YV student (V) V =mary\ V= john V V= ying < 
【 例 12-47) 考虑 如 下 的 递归 和 定义: 
passed_each({,],St,MinPass) 
passed _each({[C|R],St,MinPass)< 
passed(St,C,MinPass) \ 
passed_each(R,St,MinPass) 
用 Clark 范式 的 形式 ， 上 面 的 定义 可 写 为 : 
passed_each(L,S,M)<-L=[] 
passed_each(L,S,M)< 
ACARL=[C|RIA 
passed(S,C.M) A 
passed_each(R,S,M) 
这 里 ， 我 们 删 去 了 那些 明确 规定 变量 更 名 的 相等 声明 并 将 变量 名 改 为 合适 的 名 字 。 因 
passed_each 的 Clark 完备 化 为 : 
YLYSYM passed_each(L.S,M)-L=[]V 
3C3RCL 一 ICIR]A 
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passed(S,C,M) 人 
passed_each(R,S,M)) < 

在 完备 知识 假设 之 下 ， 仅 使 用 限定 子 名 无 法 定义 的 关系 现在 可 以 定义 了 。 

【 例 12-481 假设 你 有 一 个 数据 库 ， 其 中 当 C 为 一 个 课程 时 course (C) 为 真 ， 且 有 en- 
rolled(S，C)， 其 含义 为 学 生 5 在 课程 C 的 选课 名 单 中 。 如 果 没 有 完备 知识 假设 ， 则 当 没 
有 学 生 在 课程 C 的 选课 名 单 中 时 ， 你 不 能 定义 empiy_course(C) 为 真 。 这 是 因为 总 有 一 个 
知识 库 模 型 ， 在 该 模型 中 有 某 人 在 所 有 课程 的 选课 名 单 中 。 

使 用 否定 即 失败 规则 ，emptiy_course(C) 可 被 定义 为 : 

empty_course(C)<-course(C) A ~has_Enrollment(C) 

has_Enrollment(C)<enrolled(S,C) 

其 完备 化 为 : 

Y Cempty_course(C)course(C) A “has_Enrollment(C) 

YC has_Enrollment(C)= J S enrolled (S,C) < 

这 里 ， 我 们 要 提醒 一 下 。 当 在 和 否定 即 失 败 规则 中 含有 自由 变量 时 ， 你 需要 非常 小 心 。 
此 时 的 结果 通常 与 你 的 设想 不 一 致 。 在 前 面 的 例子 中 ， 我们 引入 了 谓词 has_Enrollment 以 
避免 在 否定 即 失败 中 含有 自由 变量 。 下 面 考 虑 如 果 没 有 做 上 述 处 理 时 会 发 生 什 么 。 

【 例 12-49] 有 人 可 能 试图 将 emptiy_course 定义 为 如 下 形式 : 

empty_course(C)<—course(C) A ~enrolled(S,C) 

其 完备 化 为 : 

V Cempty_course(C)< J S course(C) A “enrolled (S,C) 

这 是 不 正确 的 。 设 有 如 下 子 句 : 

course(cs422) 

course(cs486) 

enrolled(mary,cs422) 

enrolled(sally,cs486) 

TFA 

empty_course(cs422) <-course(cs422) A ~enrolled(sally,cs422) 

是 前 述 子 句 的 一 个 实例 ， 其 体 为 真 ， 但 其 头 为 假 ， 因 为 cs422 不 是 一 个 没有 学 生 的 课程 。 
这 是 前 述 子 句 的 正确 性 的 一 个 反例 。 

请 注意 ， 例 12-48 中 定义 的 完备 化 等 价 于 : 

V Cempty_course(C) «zcourse(C) A `J S enrolled (S,C) 

存在 量词 在 否定 的 范围 中 ， 所 以 其 等 价 于 : 

V Cempty_course(C)++course(C) 人 了 Serrotied(S,C) < 


完备 知识 假设 证 明 过 程 


带 有 变量 和 函数 的 否定 即 失败 的 自 顶 向 下 证 明 过 程 与 命题 的 否定 即 失 败 的 自 项 向 下 
证 明 过 程 非常 相似 。 因 为 有 唯一 名 字 假 设 ， 则 在 否定 目标 中 有 自由 变量 时 会 产生 一 个 
问题 。 

【 例 12-50] 考虑 下 面 的 子 句 : 

Pp XO)-~q OD) Ar(X) 

qla) 

qlb) 

r(d) 


540 
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根据 语义 ， 对 于 查询 ask p(X) 只 有 一 个 解答 ， 即 X= 二 d。 因 为 有 r(4d) 成 立 ， 所 以 ~g(d) 


成 立 ， 进 而 p(Q) 在 逻辑 上 可 从 知识 库 导出 。 


当 自 顶 向 下 证 明 过 程 遇 到 一 g(X) 时 ， 它 不 应 该 试图 去 证 明 g(X) HAT ~q(X) AR 
〈 使 用 替换 {X/a})。 这 将 会 使 目标 p(X) 不 成 立 ， 然 而 该 目标 应 该 成 立 。 因 此 ， 该 证 明 过 
程 不 是 完备 的 。 请 注意 ， 如 果 知 识 库 包含 了 ss( 久 ) 二 一 g(XX)， 则 g(X) 不 成 立 就 意味 着 
SOOM. Aik, 根据 否 定 即 失败 ， 非 完备 性 就 会 导致 不 可 靠 性 。 

根据 唯一 名 字 假 设 ( 见 12. 7.2 节 )， 一 个 可 车 的 证 明 过 程 应 该 推迟 否定 的 子 目标 ， 直 
到 自由 变量 有 了 绑 定 的 取 值 。 < 

当 含有 对 带 有 自由 变量 的 和 否定 即 失 败 的 调用 时 ， 我 们 需要 一 个 更 加 复杂 的 自 顶 向 下 证 
明 过 程 : 

。 包含 了 自由 变量 的 和 否定 即 失败 目标 必须 推迟 到 变量 变 成 绑 定 之 时 。 

。 如 果 变 量 永 不 会 变 成 绑 定 的 ， 则 出 现 目标 紊乱 Cflounder) 。 些 时， 你 不 能 对 目标 作 

出 任何 结论 。 下面 的 例子 说 明 你 应 该 对 此 时 紊乱 的 目标 做 一 些 更 复杂 的 事情 。 

【 例 12-51] 考虑 子 句 : 

p(X)<—~g(X) 

q(X)<—~r(X) 

rla) 
及 查询 

askp(X) 

完备 化 的 知识 库 是 : 

p(X) 7q(X) 

q(X)+ 7r(X) 

r(X)-X=a 

对 于 ~， 使 用 替换 X=a WBA G(X) Xa, AKA p(X)*X 二 a。 从 而 有 一 个 解 
答 ， 即 X= 二 a， 不 过 推迟 该 目标 将 不 会 有 助 于 发 现 此 解答 。 一 个 证 明 过 程 应 该 分 析 未 能 得 


出 该 解答 的 情况 。 然 而 ， 这 样 的 过 程 超出 了 本 书 讨论 的 范围 。 所 
12.9 本 章 小 结 
* 在 使 用 个 体 和 关系 刻画 的 领域 中 ,表示 个 体 的 常量 及 表示 关系 的 谓词 符号 均 可 用 于 推理 ， 以 确定 
在 域 中 哪些 为 真 。 


+ Datalog 是 带 有 常量 、 全 称 量化 的 变量 、 关 系 和 规则 的 逻辑 语言 。 

。 圭 换 用 于 生成 原子 和 规则 的 实例 。 合 一 使 得 原子 变 得 相同 ， 以 便 用 于 证 明 。 

， 函数 符号 用 于 指 代 一 个 可 能 的 无 限 的 个 体 集 合 ， 该 集合 中 的 个 体 使 用 其 他 个 体 来 描述 。 函数 符号 
可 用 于 构建 数据 结构 。 

”。 使 用 限定 子 句 来 表示 自然 语言 的 文法 是 可 能 的 。 

。 项 之 间 的 相等 意味 着 这 些 项 均 指 代 同 一 个 体 。 

* Clark 完备 化 可 在 完备 知识 假设 条 件 下 用 于 定义 否定 即 失 败 的 语义 。 


12. 10 ”参考 文献 及 进一步 阅读 


Datalog 和 逻辑 程序 由 Kowalski[1979], Sterling 和 Shapiro[1986] 及 Garcia-Molina, Ullman 和 
Widom[2009] 描 述 。 逻 辑 程 诈 设 计 的 历史 可 参考 Kowalski[1988] 和 Colmerauer、Roussel[1996] 的 工作 。 
关于 否定 即 失败 的 工作 ， 以 及 唯一 各 字 假 设 的 工作 ， 均 以 Clark[L1978j] 的 工作 为 基础 。 要 大 致 了 解 逻 
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辑 程序 设计 和 深入 了 解 否 定 即 失败 ， 可 参考 Lloyd[1987] 的 书 。Apt 和 Bol[1994] 对 各 种 处 理 否 定 即 失败 
的 技术 做 了 总 结 。 

想 了 解 计算 语言 学 请 参考 Jurafsky 和 Martin[2008] 的 工作 及 Manning 和 Schiitze[1999] 的 工作 。 使 用 
限定 子 句 来 描述 自然 语言 由 Pereira 和 Shieber[ 2002] 及 Dahl[1994] 完 成 。 


12.11 习题 

12.1 考虑 一 个 有 两 个 个 体 (a< 和 宫 )、 两 个 谓词 符号 (p 和 9g) 及 三 个 常量 (a、b 和 <) 的 域 。 知 识 库 KB 的 
定义 如 下 : 
p(X)<q(X) 


g(a) 
(a) 给 出 一 个 解释 ， 该 解释 是 KB 的 一 个 模型 。 
Cb) 给 出 一 个 解释 ， 该 解释 不 是 KB 的 一 个 模型 。 
(c) 共有 多 少 个 解释 ? 给 出 你 的 理由 。 
d) 上 述 解 释 中 有 多 少 是 KB 的 模型 ? 给 出 你 的 理由 。 542 
12.2 考虑 包含 了 常量 符号 a、5 和 cc， 谓词 符号 p 和 gq， 没有 函数 符号 的 语 育 。 我 们 有 下 面 的 知识 库 ， 
其 从 该 语言 中 构建 。 
KB, ={ p(a)} 
KB, = { p(X)<-q(X)) 
KB, =(pOQO~=q(X), 
pla), 
qb) } 
现在 考虑 该 语言 的 形 如 I 二 (D，x， 办 的 可 能 解释 ,其 中 D=(<, T, +. ®). 
(a) 在 我 们 的 简单 语言 中 ， 对 于 域 中 的 这 4 种 元 素 共有 多 少 种 解释 ?请 说 出 你 的 理由 。( 提 示 : 考 

虑 对 于 常量 符号 有 多 少 可 能 的 指派 $， 并 考虑 谓词 p 和 9 有 多 少 种 扩展 ， 最 后 确定 存在 多 少 指 

UR x) 不 要 试图 枚 举 所 有 可 能 的 解释 。 

(b) 在 上 述 解释 中 ， 有 多 少 是 KB, 的 模型 ? 请 给 出 你 的 理由 。 

(c) 在 上 述 解 释 中 ， 有 多 少 是 KB HRA? 请 给 出 你 的 理由 。 

(d) 在 上 述 解释 中 ， 有 多 少 是 KB 的 模型 ? 请 给 出 你 的 理由 。 
12.3 考虑 下 面 的 知识 库 : 

rla) 

r(e) 

plo 

qb) 

s(a,b) 

s€d,b) 

s(e,d) 

p(X)=q(X) ArCX) 

g(X)~=s(X,Y) Ag(Y) 

请 给 出 可 从 该 知识 库 中 导出 的 基 原 子 结论 集合 。 假 设 使 用 了 自 底 向 上 的 证 明 方法 且 在 每 一 次 
迭代 中 都 在 可 选 子 句 中 按 顺 序 选 择 第 一 个 。 进 一 步 ， 可 用 的 常量 替换 均 按 “ 字 母 顺序 ?进行 选择 (如 
果 有 多 个 可 选 ); Pin, WRU eR X/a 和 X/8 均 可 适用 ， 则 首选 qla)。 那 么 按 顺序 
导出 的 结论 是 怎样 的 ? 

12.4 在 例 12-21 中 ， 算 法 偶然 地 选择 了 imm_wesz(r109，r111) 作 为 归结 的 子 句 。 如 果 选 择 的 是 男 一 个 
子 句 会 产生 什么 样 的 结果 ? 请 给 出 归结 过 程 ， 并 给 出 不 同 的 解答 或 者 给 出 一 个 泛 化 的 解答 子 句 ， 
该 子 句 不 能 够 使 用 知识 库 中 的 任意 子 句 进行 归结 。 
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12.5 在 例 12-21 中 ,我 们 总 是 选择 最 左边 的 合 取 项 进行 归结 。 存 在 一 个 选择 规则 (在 查询 中 选择 一 个 合 
取 项 进行 归结 )， 对 于 本 例 ， 该 规则 将 仅 返 回 一 个 选项 吗 ? 给 出 一 个 一 般 规 则 ， 其 产生 较 少 的 失败 
分 支 (至 少 对 于 本 例 是 如 此 )。 给 出 一 个 你 的 规则 不 能 工作 的 例子 。 - 
12.6 按照 例 12-21 的 方式 ， 给 出 下 面 查询 的 导出 过 程 : 
(a) ask two_doors_east(r107, R) 
Cb) ask next_door(R, r107) 
(c) ask west(R, r107) 
Cd) ask west(rl07, R) 
请 给 出 每 一 个 查询 的 解答 。 
12.7 考虑 下 面 的 知识 库 : 
has_access(X , library)<-student(X) 
has_access(X , library) <faculty(X) 
has_access(X , library)<has_access(Y ,library) 人 parent(Y , X) 
has_access(X „of fice)<-has_keys(X) 
faculty(diane) 
faculty(ming) 
student( william) 
student(mary) 
parent( diane, karen) 
parent(diane,robyn) 
parent(susan,sarah) 
parent(sarah ariel) 
parernt(karen,mary) 
parent(karen,todd) 
(a) 给 出 查询 ask has_access(todd, library) j SLD 导出 过 程 。 
(b) 查询 ask has_access(mary，library) 有 两 个 SLD 导出 ， 请 给 出 它们 。 
(c) 查询 ask has_access(ariel，library) 有 SLD FU? 请 解释 。 
(d) 请 解释 查询 ask has_access(X，ofrice) 的 解答 为 什么 为 空 ? 
Ce) 假设 下 面 的 子 句 加 入 了 知识 库 : 
has_keys( X)< faculty(X) 
544 那么 查询 ask has_access(X，ofrice) 的 解答 是 什么 ? 
12.8 应 用 了 下 面 的 蔡 换 后 得 到 的 结果 是 什么 ? 
Ca) f(A, Xs Y, Xs Y{(A/X, Z/b, Y/c} 
(b) yes(F, L)<append(F, c(L, nil), c(l, cli, els, c(t, nil))))) 
{F/cCl, Xi), Yi/e(L, nil), Ay/l, Z,/cli, cls, ct, nil)))) 
Cc) append(c(A;, Xi), Yi» cAr, Z,))<append(X,, Yi, Z;) 
{F/eW, Xi), Yi/eCL, nil), A/l, Z,/cGi, cls, c(t, nil)))} 
12.9 找 出 下 面 表达 式 对 的 最 广 合 一 算 子 : 
(a) p(fCO, gge pZ, gE(Y)) 
Cb) g(fCX), rCO, OM gW, r(Q), Q) 
Cc) bar(val(X, bb), Z)#l bar(P, P) 
12.10 ”对 于 下 面 的 原子 对 ， 如 果 有 最 广 合 一 算 子 请 给 出 ， 否 则 请 解释 为 什么 不 存在 : 
(a) p(X, Y, as bs W) 
PCE, cy F, G. F) 
(b) p(X, Y, Y) 
PCE, E, F) 
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C) HY, a, b, Y) 
ple, F, G, P) 
€d) ap(F0, clb, c(BO, LO)), cla, clb, ch, cla, emp))))) 
aplet HI, T1), LI, cH, RIY) 
列 出 下 面 知 识 库 的 所 有 基 原 子 逻 辑 结 论 : 
q(Y)<s(Y Z) Ar(Z) 
p(X)<q(f(X)) 
sC f(a) sb) 
sC f(b) b) 
s(c,6) 
r(b) 
考虑 下 面 的 逻辑 程序 : 
flempty,X,X) 
flcons (X,Y) W.2)<— 
fO W,cons(X,Z)) 
给 出 每 一 个 自 顶 向 下 导出 ， 指 明 下 面 查询 的 替换 (如 例 12-31 所 示 ): 
ask f (cons(a,cons(b,cons(c,empty))),L,empty) 
其 全 部 的 解答 有 哪些 ? 
考虑 下 面 的 逻辑 程序 : 
rd(cons(H,cons(H,T)),T) 
rd(cons(H,T),cons(H,R))<— 
rd(T.R) 
给 出 一 个 自 顶 向 下 导出 ， 指 明 下 面 查询 的 所 有 替换 : 
ask rd(cons(a, cons(cons(a, X), cons(B, cons(e, 2Z)))), W) 
根据 上 面 的 导出 ， 该 查询 的 解答 是 什么 ? 


存在 第 二 个 解答 吗 ? 如 果 存 在 ， 给 出 导出 过 程 ; 如 果 不 存 在 ， 请 解释 原因 。 


考虑 下 面 的 逻辑 程序 : 

ap(emp,L,L) 

aple (H,T),Lsc(H,R))< 
ap(T,L,R) 

adj(A,B,L)=— 
ap(F ,c(A,c(B,E)),L) 

(a) 对 于 下 面 查询 的 一 个 解答 ， 给 出 自 顶 向 下 导出 (包括 所 有 的 替换 ): 
ask adj(b, Y, cla, clb, clbs cla, emp))))) 
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Cb) 存在 其 他 的 解答 吗 ? 如 果 存 在 ， 请 解释 在 上 述 解答 的 导出 过 程 的 哪 一 步 可 做 出 不 同 的 选择 ， 


并 继续 算法 ， 得 到 另 一 个 解答 。 如 果 不 存 在 另 一 个 解答 ， 请 解释 为 什么 没有 。 


(在 这 个 练习 中 ， 你 将 作为 一 台 计 算 机 ， 根 本 不 用 考虑 符号 的 含义 。 如 果 你 想 为 这 个 程序 赋 
子 一 定 的 意义 ， 你 可 以 将 ap BE append, c BYE cons, emp RE empty, adj 读 作 adjacent.) 


本 题 的 目的 是 练习 编写 简单 逻辑 程序 。 


(a) 编写 一 个 关系 remove(E, L, R), 4REMWHL PURE 的 一 个 实例 后 剩余 的 列表 时 返 


HAR. MR ERBWNRL 的 成 员 则 该 关系 为 假 。 
Cb) 给 出 下 面 查询 的 所 有 解答 ， 
ask remove(a;|b,a,;d,a],R) 
ask remove(E,[b,a,d,a],R) 
ask remove(E,L,[b.a,d]) 
ask remove( p(X) [as pla). p(pla)), p(p(pla))) ],R) 


‘ 


545 


546 


547 
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Cc) 编写 一 个 subsequence(L1，L2) 关 系 ， 如 果 列 表 Li 中 包含 了 L2 中 的 元 素 的 有 序 子 集 则 为 真 。 
(d) 对 于 下 面 的 查询 ， 有 和 多少 不 同 的 证 明 ? 
ask subsequence((a,d],[b,asd,a]) 
ask subsequence((b,a].[6.a,d,a]) 
ask subsequence(| X.Y ].[b.a,d+a]) 
ask subsequence(S,[b.a-dsa]) 
请 解释 为 什么 有 那么 多 ? 
在 本 题 ， 你 要 为 用 户 视频 演示 设计 方案 编写 一 个 限定 子 句 知识 库 。 
假设 视频 使 用 下 面 的 关系 进行 标注 : 
segment( Seg Id , Duration, Covers) 
其 中 SegI4d 是 视频 片段 的 标识 符 。( 在 一 个 实际 的 应 用 中 ， 可 根据 它 来 抽取 视频 片段 )。Duration 
是 视频 片段 的 时 长 ( 秒 )。Covers 是 该 视频 所 涵盖 的 主题 列表 。 一 个 视频 标注 的 示例 数据 库 如 下 : 
segment(seg0.10,{ welcome |) 
segment (seg1,30,[ skiing, views |) 
segment (seg? .50,[ welcome ,computationalintelligence. robots |) 
segment(seg3.40,[ graphics,dragons |) 
segment (seg4,50.[ skiing, robots |) 
一 个 演示 是 片段 的 一 个 序列 。 你 可 将 演示 表示 为 片段 标识 符 的 列表 。 
(a) WÈ Segments 是 一 个 演示 ， 其 总 时 长 小 于 或 等 于 Maztime # H. MustCover 中 列 出 的 主题 均 
被 该 演示 中 的 一 个 片段 所 涵盖 ， 则 公理 化 谓词 
presentation( MustCover, Mazxtime,Segments) 
为 真 。 这 个 谓词 的 目标 是 设计 一 个 演示 ， 该 演示 涵盖 了 一 定数 量 的 主题 且 总 时 长 限定 在 给 定 的 范 
围 内 。 
例如 ， 查 询 
ask presentation(| welcome «skiing, robots |,90,Segs) 
应 该 至 少 返 回 下 面 两 个 解答 (其 视频 片段 顺序 可 能 不 同 ): 
presentation( | welcome, skiing robots | .90,[seg0,seg4 |) 
presentation([ welcome, skiing , robots | ,90,|seg2,seg1 ]) 
设 为 所 有 的 符号 给 定 了 特定 的 解释 且 假 设 你 已 经 在 AILog BR Prolog 中 测试 了 你 的 公理 化 ( 包 
括 为 你 的 查询 找 出 所 有 的 解答 )。 请 解释 为 什么 每 一 个 答案 是 一 个 解 管 。 
(b) 假设 你 有 一 个 很 好 的 用 户 接口 ， 有 方法 实际 地 查看 该 演示 ， 则 请 列 出 至 少 三 个 你 想 要 但 前 面 
的 程序 没有 提供 的 东西 。( 此 问 没有 标准 答案 。 你 必须 有 创造 力 才能 得 满分 。) 
构建 一 个 知识 库 和 字典 (在 图 12-11 的 基础 上 ) 来 回答 诸如 图 1-2 中 的 地 理 问 题 。 对 于 每 一 个 查询 ， 
解释 其 是 如 何 得 到 解答 的 ， 或 解释 为 什么 难以 使 用 本 章 介 绍 的 工具 得 到 解答 。 
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在 发 展 一 个 能 满足 需要 的 计算 理论 的 道路 上 ， 最 重要 的 问题 是 发 展 与 语义 化 相称 的 本 
体 化 。 这 并 不 是 说 语义 问题 消失 了 ; 语义 仍 像 以 往 那 样 具 有 挑战 性 。 语 义 和 本 体 通 过 更 高 
要 求 的 本 体 问 题 联系 起 来 ， 并 继续 像 以 往 那 样 位 于 短 台 的 中 央 。 

一 一 SmithL1996 p. 14] 


如 何 表达 世界 中 现存 的 知识 ， 使 其 容易 被 获取 、 调 试 、 维 护 、 传 递 、 共 享 和 推理 ? 本 
章 探 讨 如 何 明确 说 明智 能 Agent 中 符号 的 意义 ， 如 何在 基于 知识 的 调 坛 和 解释 中 使 用 这 些 
意义 ， 最 后 介绍 Agent 如 何 表示 自己 的 推理 以 及 如 何 利 用 这 些 表 示 来 构建 基于 知识 的 系 
统 。 正 如 在 前 面 引 文中 Smith 所 指出 的 ， 本 体 问 题 是 构建 智能 计算 Agent 的 中 心 问题 。 


13.1 知识 共享 


有 一 个 恰当 的 表示 只 是 建立 一 个 基于 知识 的 Agent 的 一 部 分 工作 。 我 们 应 该 确保 能 够 
从 多 种 不 同 来 源 获 得 知识 ， 并 且 保 证 多 种 不 同 渠 道 来 源 的 知识 间 可 以 互 操作 。 此 外 还 需要 
确保 知识 可 以 被 用 于 有 效 的 推理 。 

回想 一 下 ， 本 体 是 关于 信息 系统 中 符号 的 含义 的 规范 说 明 。 这 里 ， 信 息 系统 是 一 个 知 
识 库 或 某 种 信息 源 ， 如 温度 计 可 被 看 做 是 一 种 信息 系统 。 有 些 时 候 ， 符 号 的 含义 仅 存在 于 
知识 库 设计 者 的 脑海 中 ， 或 者 存在 于 知识 库 的 注释 中 。 现 在 越 来 越 常见 的 方式 是 ， 这 些 含 
义 的 规范 说 明 以 机 器 可 解释 的 形式 存在 。 这 个 形式 的 规范 说 明 对 于 语义 互 操作 性 (semantic 
interoperability) 一 一 即 不 同 知识 库 在 一 起 工作 的 能 力 一 一 是 重要 的 。 

【 例 13-1] 采购 Agent 应 该 能 够 判断 网 站 中 所 宣称 的 便宜 的 “chips” 指 代 的 是 薯 片 、 
芯片 、 木 条 还 是 扑克 筹码 。 本 体 可 以 为 网 站 的 术语 提供 明确 意义 。 与 仅 使 用 符号 "chip” 不 
同 ， 遵循 了 本 体 的 网 站 可 能 使 用 符号 “WoodChipMixed” 该 符号 由 某 一 发 布 了 本 体 的 特 
定 机 构 定义 。 通 过 使 用 这 个 符号 并 声明 其 来 源 于 哪个 本 体 ， 可 以 有 效 地 避免 使 用 “chips” 时 
产生 的 歧义 。 网 页 的 正式 表示 可 能 使 用 “WoodChipMixed”， 而 该 符号 可 被 翻译 为 简单 的 英 
语 符号 "chip”。 如 果 另 一 个 信息 源 使 用 的 是 符号 "ChipOfWood”， 则 某 一 第 三 方 可 能 会 声 
明 在 该 信息 源 中 的 术语 *ChipOfWood? 对 应 于 我 们 的 ”WoodChipMixed”， 从 而 使 得 两 信息 
源 可 以 相互 结合 。 < 

在 讨论 如 何 指定 本 体 之 前 ， 我 们 先 讨 论 如 何 使 用 前 一 章 的 逻辑 (可 带 有 变量 、 项 和 关 
系 ) 来 建立 灵活 的 表示 。 这 些 灵活 的 表示 人 允许 增加 知识 模块 ， 包 括 在 关系 中 添加 变 元 。 

通过 为 符号 的 含义 设 定 一 个 规范 说 明 ，Agent 就 可 以 在 知识 层面 的 知识 获取 、 解 释 和 
调试 中 使 用 这 个 含义 。 


13.2 灵活 的 表示 


本 章 的 第 一 部 分 讲述 如 何 使 用 逻辑 工具 建立 灵活 的 表示 方法 。 这 些 灵 活 的 表示 是 现代 
本 体 论 的 基础 。 
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13.2.1 选择 个 体 和 关系 


给 定 一 个 逻辑 表示 语言 (如 前 一 章 中 开发 的 语言 ) 及 一 个 推理 的 世界 ， 则 知识 库 的 设 
计 者 必须 选择 引用 这 个 世界 中 的 哪些 内 容 。 也 就 是 说 ， 他 们 必须 选择 要 引用 哪些 个 体 和 
关系 。 乍 看 起 来 ， 他 们 可 以 引用 在 考察 的 世界 中 存在 的 那些 个 体 和 关系 。 然 而 ， 世 界 本 
身 并 没有 提供 关于 个 体 的 信息 。 为 本 世界 建 模 的 人 创造 了 如 何 划 分 世界 为 个 体 。 建 模 者 
将 世界 划分 为 小 的 部 分 ， 从 而 使 得 Agent 能 引用 该 世界 中 对 于 手中 工作 有 意义 的 各 
部 分 。 

【 例 13-2] 在 世界 中 ， 你 可 能 认为 “红色 ?是 事物 的 合理 属性 。 之 所 以 这 样 ， 是 因为 你 
可 能 想 告 知 传 送 机 器 人 去 拿 红 色 的 包 庄 。 在 世界 中 ， 物 体 的 表面 会 吸收 一 些 频率 的 光 并 反 
射 其 他 频率 的 光 。 在 一 些 应 用 中 ， 一些 用 户 可 能 称 一 些 特定 的 反射 特性 为 “ 红 ”。 而 领域 的 
另外 一 些 建 模 考 可 能 使 用 另外 一 个 频谱 映射 ， 并 使 用 术语 粉红 、 狸 红 、 宝 五 红 和 深 红 ， 其 
至 另 有 一 些 建 模 者 可 能 会 对 颜色 频谱 做 不 同 的 划分 ， 以 至 于 在 任何 语言 中 都 无 法 找到 对 应 
的 词语 来 描述 ,但 是 这 种 划分 对 于 区 分 个 体 的 不 同类 别 非常 有 用 。 < 

正如 建 模 者 决定 要 表示 哪些 个 体 一 样 ， 他 们 还 需要 选择 要 使 用 的 关系 。 下 面 通过 一 系 
列 的 例子 来 说 明 如 何 选择 关系 和 个 体 的 实用 性 指导 原则 。 

【 例 13-3) 假设 你 认为 “red” 是 一 个 为 个 体 分 类 的 合适 的 属性 ， 则 可 以 把 red 作为 一 
元 关系 ， 那 么 一 个 红色 包 于 a 可 以 写 做 : 

red(a) 
如 果 用 这 种 方式 表示 颜色 信息 ， 那 么 就 可 以 容易 地 发 出 “什么 是 红色 的 ”询问 : 

? red(X) 
返回 的 X 就 是 红色 的 个 体 。 

在 这 种 表示 方法 中 ， 不 能 询问 “ 包 正 a 是 什么 颜色 ?””。 因 为 在 限定 子 句 的 句法 中 ， 你 
不 能 提出 下 面 的 提问 : 

ask X(a) 

因为 在 基于 一 阶 逻辑 的 语言 中 ,谓词 的 名 字 不 能 是 变量 。 在 二 阶 或 高 阶 逻辑 中 ， 这 可 
返回 a 的 任何 属性 ， 而 不 仅仅 是 它 的 颜色 。 

有 其 他 替换 的 方法 允许 你 询问 包 庄 a 的 颜色 。 在 世界 中 没有 任何 东西 会 强制 你 设置 一 
个 谓词 re&。 你 可 简单 地 说 颜色 也 是 个 体 ， 且 你 可 用 常量 red 来 表示 红颜 色 。 如 果 red 是 
一 个 常量 ， 你 可 以 使 用 谓词 color, HP color(Ind，Val) 表 示 物 理 个 体 Ind 拥有 颜色 Val 。 
“ 包 于 a 是 红色 的 ”现在 可 以 写成 : 

color(a,red) 

你 所 做 的 是 重新 审视 这 个 世界 : 现在 的 世界 由 你 可 命名 的 个 体 组 成 ， 其 中 颜色 也 是 个 
体 。 此 时 在 物理 个 体 和 颜色 之 间 有 一 种 新 的 二 元 关系 color。 根 据 这 种 新 的 表达 关系 你 就 
可 以 使 用 下 面 的 查询 来 询问 “物体 a 是 什么 颜色 的 ?”: 


?color(a,C) < 
将 一 个 抽象 概念 转化 为 一 个 对 象 被 称 为 具体 化 (reify)。 在 前 面 的 例子 中 ， 我 们 具体 化 
了 颜色 red, 


【 例 13-4) 前 面 例子 的 表示 方式 好 像 没 有 什么 缺点 。 以 前 能 够 做 的 事情 现在 仍然 能 够 
做 。 与 书写 red(X) 相 比 ， 书写 color(X，red) 并 没 增加 多 少 困 难 ， 但 是 你 现在 可 以 询问 事 
物 的 颜色 了 。 因 此 ， 就 会 产生 这 样 一 个 问题 : 你 是 否 可 以 对 每 一 个 关系 做 类 似 的 处 理 ? 要 
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做 到 何 种 程度 ? 

正如 对 谓词 red 的 分 析 一 样 ， 你 可 以 对 例 13-3 中 的 谓词 color 做 一 个 类 和 似 的 分 析 。 将 
color 表示 为 一 个 谓词 ， 就 不 能 提出 “ 包 圳 a 的 哪个 属性 具有 值 red?” 这 种 问题 ， 此 问题 的 
合理 解 管 是 “color”。 在 例 13-3 中 做 一 个 类 似 的 转换 ， 即 你 可 以 将 如 color 的 属性 视 作 个 
体 ， 并 创造 一 个 关系 prop， 则 “个 体 a color 属性 的 值 为 red” 可 表示 如 下 : 

prop(a,color,red) 

这 种 表示 支持 本 例 和 上 一 个 例子 中 所 有 的 查询 。 你 不 必 进 一 步 做 上 述 的 分 析 了 ， 因 为 
你 能 够 使 用 prop 关系 来 编写 所 有 的 关系 。 < 

个 体 - 属 性 - 值 (individual-property-value) 表 示 法 是 用 单一 的 关系 prop 实现 的 ， 其 中 : 

prop(Ind,Prop,Val) 

表示 个 体 Ind 的 属性 Prop 的 值 是 Val。 这 被 称 为 三 元 组 表示 (triple representation), 
因为 所 有 的 关系 都 被 表示 为 三 元 组 (triple)。 将 三 元 组 看 做 一 个 简单 的 由 三 个 词组 成 的 句 
子 ， 则 其 第 一 个 元 素 称 为 主语 Csubject)， 第 二 个 元 素 是 动词 (verb)， 第 三 个 元 素 是 宾语 
(object) 。 

三 元 组 中 的 动词 是 一 个 属性 (property)。 属 性 p 的 域 是 个 体 的 集合 ; 当 p 是 一 个 动词 
时 ， 则 这 些 个 体能 够 作为 三 元 组 中 的 主语 。 属 性 p 的 范围 是 值 的 集合 ; 当 产 是 动词 时 ， 这 
些 值 可 作为 三 元 组 中 的 宾语 。 

一 个 特性 (attribute) 是 一 个 属性 - 值 对 。 例 如 ， 包 右 的 一 个 特性 可 能 为 其 颜色 是 红色 。 
如 果 两 个 包 庄 有 相同 的 特性 ， 即 它们 的 属性 的 值 完全 相同 ， 则 此 两 个 包 训 相同 。 

对 于 三 元 组 表示 法 ， 有 一 些 谓词 可 能 看 起 来 过 于 简单 。 

【 例 13-5) 在 将 谓词 parcel(a) 一 一 其 含义 是 a 是 一 个 包 衷 一 一 转换 为 三 元 组 的 表示 
形式 时 ， 看 起 来 没有 合适 的 属性 和 值 。 这 里 有 两 种 将 此 谓词 转换 为 三 元 组 表示 的 方法 。 第 
一 种 是 具体 化 包 圳 概念 来 说 明 a 是 一 个 包 庄 : 

prop(a,type, parcel) 

XE, type 是 一 个 特殊 的 属性 ， 该 属性 建立 个 体 与 其 类 别 间 的 联系 。 常 量 parcel 表 
示 类 别 ， 该 类 别 集合 中 的 所 有 事物 ， 包 括 实在 的 和 潜在 的 ， 都 是 包 衷 。 上 述 三 元 组 表示 个 
体 a 属于 parcel 类 别 。 

第 二 种 表示 方法 是 将 包 训 作为 一 个 属性 ， 此 时 “a 是 一 个 包 夺 ”可 记 为 ; 

prop (a, parcel, true) 


在 这 个 表示 中 ，parcel 是 一 个 布尔 属性 ， 当 某 事物 为 包 衰 时， 该 事物 的 parcel 属性 值 


为 真 。 a 
布尔 属性 (Boolean property) 是 一 种 属性 ， 其 取 值 范围 是 {true，Jfalse)， 其 中 true 和 
false 是 语言 中 的 常量 符号 。 


对 于 三 元 组 表示 法 来 说 ， 有 些 谓词 可 能 看 起 来 过 于 复杂 。 

【 例 13-6 假设 你 希望 表示 如 下 的 关系 : 

scheduled(C,S,T,R) 

其 含义 是 课程 C 的 S 节 计 划 于 时 刻 T 在 房间 R IPRA. PUAN, “RE cs422 的 第 2 节 将 
于 10: 30 在 房间 cc208 开始 ”可 记 为 : 

scheduled (cs422,2,1030,cc208) 
为 用 三 元 组 表示 该 关系 ， 你 可 以 创建 一 个 新 的 个 体 booking (预订 )。 因 此 ，scheduled 关系 
就 可 具体 化 为 一 个 预订 个 体 。 
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一 个 预订 有 多 个 属性 ， 即 一 个 课程 、 课 程 的 一 节 、 一 个 开始 时 间 和 一 个 房间 。 为 表示 
“课程 cs422 的 第 2 节 计 划 于 10:30 在 房间 cc208 开始 "， 你 可 命名 该 预订 ， 如 一 个 常量 
5123， 并 可 记 为 : 

prop(6123,course,cs422) 

prop (6123, section,2) 

prop(6123,start_time,1030) 

prop(b123,room,cc208) 

这 种 新 的 表示 法 具有 许多 优点 。 最 重要 的 优点 是 其 模块 化 结构 ; 容易 看 出 哪个 值 从 属 
于 哪个 属性 。 也 容易 添加 新 属性 ， 如 授课 的 教师 或 者 授课 的 时 间 长 度 。 使 用 这 个 新 的 表示 
法 ， 可 容易 地 添加 如 “Fran 讲授 课程 cs422 的 第 2 节 ， 计划 于 10:30 在 房间 cc208 开始 ?或 
课程 时 间 是 50 分 钟 : 

prop(6123 ,instructor, fran) 

prop(6123,duration,50) 

如 果 使 用 scheduled 谓词 ， 则 很 难 添加 授课 教师 或 者 课程 持续 时 间 ， 因 为 这 需要 为 每 
一 个 谓词 实例 添加 一 个 额外 的 论 元 。 


13.2.2 图 形 化 表示 


你 可 以 使 用 图 来 解释 prop 关系 ， 其 中 关系 

proplInd,Prop, Val) 
使 用 节点 Ind 和 Val 及 该 两 节点 间 带 有 标签 Prop 的 边 来 描述 ， 称 这 种 图 为 语义 网 络 (se- 
mantic network) 。 给 定 这 样 一 个 图 形 化 表示 ， 则 有 一 个 使 用 prop 关系 的 直接 到 知识 库 的 
映射。 

LSJ 13-7】 图 13-1 表示 了 传送 机 器 人 的 一 个 语义 网 络 ， 该 网 络 表 示 了 机 器 人 可 能 有 
c/a! 类 知识 。 该 网 络 中 表示 的 部 分 知识 如 下 : 


| lemon_laptop_10000 | | lemon_laptop_10000 | 10000 
H | lemon_computer | | lemon_computer | 
fre. See > pe ae disc 


| comp_2347 | | comp_2347 | 


nee < 


图 13-1 语义 网 





prop(comp_2347 ,owned_by. fran) 
prop(comp_2347 ,managed_by,sam) 
prop(comp_2347 ,model,lemon_laptop_10000) 
prop(comp_2347 , brand .lemon_com puter) 
prop(comp_2347 ,has_logo,lemon_disc) 
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prop(comp_2347 ,color, green) 
prop(comp_2347 color, yellow) 
prop(comp_2347 ,ueight,light) 
propt fran, has_of fice,r107) 
prop (rl07 ,in_building ,comp_sci) < 
该 网 络 也 展示 了 知识 是 如 何 组 织 的 。 倒 如， 可 很 容易 地 看 出 编号 为 2347 的 计算 机 被 
某 人 (Fran) 拥 有 ， 此 人 的 办 公 室 (r107) 在 建筑 物 comp_sci 中 。 图 中 明显 的 直接 标定 可 被 人 
类 和 机 器 使 用 。 


这 种 图 形 符 号 具有 多 个 优点 : 
。 不 需要 学 习 特 定 逻 辑 的 句法 就 可 以 容易 地 看 出 相应 的 关系 。 图 形 符号 可 帮助 知识 
库 的 建造 者 组 织 他 们 的 知识 。 


。 你 可 以 忽略 节点 的 标签 ,这些 标签 只 是 些 无 意义 的 名 字 。 例 如 ， 例 13-6 中 的 和 名字 
6123, 或 图 13-1 中 的 comp_2347。 你 可 以 把 这 些 节点 视 为 空白 ; 如 果 你 必须 将 它 
们 映射 到 逻辑 形式 ， 则 可 以 为 它们 任意 指定 一 个 名 字 。 

三 元 组 的 简明 语言 

Turtle 是 表示 三 元 组 的 简单 语言 。 它 是 为 语义 网 络 而 创造 的 语言 之 一 。 它 也 用 于 资源 
描述 框架 (Resource Description Framework，RDF) 的 句法 分 析 一 一 其 中 RDF 是 从 一 个 相 
似 的 语言 Notation 3 或 N3 扩展 而 来 。 

在 Turtle 和 RDF 中 ， 任 何事 物 一 一 包括 个 体 、 类 别 和 属性 一 一 都 是 资源 。 统 一 资源 
标识 符 (Uniform Resource Identifier，URID 可 以 用 来 唯一 地 标识 任何 物体 。URI 标记 写 在 
尖 括 号 内 ， 它 往往 有 一 个 URL 的 形式 ， 因 为 每 个 URL 都 是 唯一 的 。 例 如 ，《http://ais- 
pace. org) 可 以 是 一 个 URI. 在 URI 中 ,“# ”表示 指向 网 页 中 的 个 体 。 例如，《http:// 
cs. ube. ca/ ~poole/ foaf. rdf # david) 表 示 网 页 http;//cs. ube. ca/~ poole/ foaf. rdf 中 的 个 
tk david。URI( 表 示 当 前 文档 ， 因 此 ，URI( # comp_2347) 表 示 一 个 在 当前 文档 中 定义 
的 个 体 。 

三 元 组 可 以 简单 地 记 为 : 

Subject Verb Object 
其 中 ，Subject # Verb 都 是 URI, m Object 可 以 是 一 个 URI 或 一 个 文字 (字符 串 或 数字 ) 。 
Verb 指示 属性 。Object 是 Subject 的 属性 Verb 的 值 。 

【 例 13-8】 例 13-7 中 的 三 元 组 可 用 Turtle SAM FÉR: 

(#comp_2347)( # owned _ by) ( # fran). 

(#comp _ 2347)( 4 managed _ by)< # sam). 

(#comp _ 2347)< 4 model) < # lemon _ laptop _ 10000). 

(#comp _ 2347) ( # brand) <( # lemon _ computer). [555] 

(#comp_ 2347)(# has _ logo)< # lemon _ disc). 

(# comp _ 2347)< # color) ( green). 

(#comp _ 2347) # color) < # yellow). 

(# fran)( # has _ office) < #1107). 

(#1107)(#serves _ building) # comp _ sci). 

其 中 的 标识 符 “fran? 不 代表 个 体 的 名 称 。 如 果 希 望 表示 某 人 的 名 字 叫 Fran， 则 可 
记 为 : 


( # fran)< # name)"Fran”. < 
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在 Turtle 语言 中 有 一 些 常用 的 缩 上 略语 。 逗 号 分 组 具有 相同 的 主语 和 谓词 的 对 象 ， 即 
S V OO, 
是 如 下 表示 的 简写 : 

Ss yY Oj. 

S V Or 

分 号 分 组 具有 相同 主语 的 动词 -宾语 对 ， 即 

S Vi O;V: Q. 

是 下 面 的 简写 : 

S Vx. Ga 

S Vz O 

方 插 号 用 于 定义 一 个 没有 标识 符 的 个 体 。 该 无 名 称 的 资源 可 用 于 某 三 元 组 的 宾语 ， 但 
不 能 被 引用 。 逗 号 和 分 号 均 可 用 于 表示 这 类 资源 的 属性 。 因 此 ， 

[Vi O'sV: O2] 
表示 一 个 体 ， 甚 属性 V 的 值 为 0,， 属 性 Vi 的 值 为 0;。 这 种 无 名 称 个 体 的 描述 有 时 被 称 
为 框架 (frame) 。 动 词 有 时 被 称 为 横 (slot)， 而 宾语 被 称 为 填充 物 (filler) 。 

【 例 13-9) 下 面 的 Turtle 语句 

‘comp_3645)(# owned_by) ( # fran); 

( # color) ( # green), < # yellow); 
( # managed_by)[( # occupation) ( # sys_admin) ; 
( # serves_building)< # comp_sci) ]. 
表明 (#fran 拥 有 (comp_3645)， 甚 颜色 是 绿色 和 黄色 ， 且 其 被 一 个 资源 所 管理 ， 而 该 资 
源 的 工作 是 系统 管理 、 工 作 地 点 是 comp_sci. 

其 是 如 下 三 元 组 的 简写 : 

(comp_3645)<« # owned_by)< # fran). 

(comp_3645)( # color)< # green). 

<comp_3645)<( # color) ( # yellow). 

{comp_3645)< # managed_by)<i2134). 

(12134) ¢ # occupation) ( # sys_admin). 

(i2134)< # serves_building)< # comp_sci). 

不 过 ， 其 中 的 URI(i2134) 不 能 在 任何 地 方 被 引用 。 < 

对 于 读者 来 说 ， 其 很 难 知道 设计 者 设计 一 个 特定 的 URI( 如 ( 提 name)) 时 的 意图 ; 同 
样 也 很 难 知道 这 个 术语 的 使 用 是 如 何 与 其 他 人 对 同一 术语 的 使 用 发 生 关联 的 。 然 而 ， 人 们 
已 经 对 一 些 特定 术语 的 含义 达成 了 共识 。 例 如 ， 属 性 《http: 人 xmlns, com/foaf/0. 1/# 
name) 是 对 一 个 对 象 的 名 称 的 标准 定义 。 因 此 ， 如 果 我 们 编写 如 下 语句 : 

( # fran) (http; //xmlns. com/foaf/0. 1/ # name)" Fran". 

则 我 们 的 意思 是 特定 的 name 属性 就 遵循 上 述 定义 。 

URL http://xmlns. com/foaf/0.1/ 中 的 内 容 无 关 紧 要 ， 只 要 使 用 URI ¢ http: // 
xmlns. com/foaf/0. 1/#name) 的 人 的 意图 均 是 要 表达 同一 个 属性 就 可 以 了 。 一 个 URL, 
在 编写 它 时 ， 仅 是 重 定向 到 一 个 网 页 。 然 而 ，“friend of a friend” 项 目 ( 这 正 是 “foaf” 的 含 
义 ) 使 用 该 命名 空间 来 表达 某 些 事 情 。 这 样 做 可 使 事情 变 得 简单 些 ， 因 为 人 们 都 在 这 样 
使 用 。 
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在 Turtle 中 ， 通 过 使 用 "@prefix" 声 明 ， 可 以 使 用 简化 的 “name:? 来 替换 一 个 URL 和 
尖 插 号 。 例 如 ， 作 如 下 声明 ， 

@prefix foaf: (http: //xmlns. com/foaf/0. 1/ # ) 
则 “foaf，name” 就 表示 了 《http;//xmlns. com/foaf/0. 1/# name) 的 简写 形式 。 类 似 的 ， 有 
如 下 声明 

@prefix:(#) 
我 们 就 可 用 : color 表示 《 间 color)。 

Æ Turtle 中 也 允许 为 没有 具体 化 的 函数 的 参数 加 括号 。 它 还 允许 使 用 缩写 “a” 表 示 
“rdf; type”， 但 我 们 在 这 里 不 遵循 这 一 惯例 。 


13.2.3 原始 关系 与 导出 关系 


通常 ， 你 对 域 的 了 解 要 比 对 事实 库 的 了 解 更 多 ; 你 知道 一 些 一 般 规划 ， 根 据 这 些 规则 
你 可 以 导出 其 他 的 事实 。 哪 些 事实 需 要 明确 给 出 ， 哪 些 事实 可 以 使 用 规则 导出 ， 这 是 设计 
和 建造 知识 库 时 需要 做 出 的 选择 。 

原始 知识 (primitive knowledge) 是 使 用 事实 明确 定义 的 知识 。 导 出 知识 (derived 
knowledge) 是 可 从 其 他 知识 中 推断 出 来 的 知识 。 导 出 知识 通常 使 用 规则 来 明确 规定 。 

规则 的 使 用 可 以 使 知识 的 表示 更 加 简练 。 导 出 关系 允许 从 对 域 的 观察 中 得 出 结论 。 这 
是 很 重要 的 ， 因 为 你 不 会 直接 观察 到 域 中 的 所 有 事情 。 对 域 的 了 解 大 多 来 自 以 观 察 和 一 般 
知识 为 基础 的 推理 。 


知识 库 与 面向 对 象 程序 设计 中 的 类 


基于 知识 的 系统 中 的 “个 体 ” 与 “类 别 ” 的 使 用 与 面向 对 象 程序 设计 (object-oriented pro- 
gramming, OOP) 语 言 ( 如 Smalltalk 和 Java) 中 的 “对 象 " 和 “类 ”的 使 用 非常 相似 。 对 此 你 
不 必 过 于 惊讶 ， 因 为 它们 在 历史 上 就 相互 联系 。 它 们 之 间 有 重要 的 不 同 ， 如 果 直 接 比 拟 它 
们 ， 那 么 这 些 不同 往 往 会 造成 更 多 的 困扰 而 不 是 提供 更 多 的 帮助 ; 
。 OOP 中 的 对 象 是 可 以 计算 的 对 象 ; 它们 是 数据 结构 和 相 联 系 的 程序 。jJava 中 的 对 
象 “person” 不 是 一 个 真实 的 人 。 然 而 ， 知 识 库 (KB) 中 的 个 体 是 现实 世界 中 的 (有 从 
表 性 的 ) 物 体 。KB 中 的 个 体 “person” 可 以 是 一 个 真实 的 人 。 个 体 “chair” 可 以 是 一 
个 真实 的 椅子 ， 你 可 以 坐 在 上 面 ; 如 果 你 撞 到 它 ， 这 个 “chair”" 可 以 伤 到 你 。 你 可 
以 给 Java 中 的 “chair” 对 象 发 送 消息 ， 并 从 它 获得 答案 ， 然 而 现实 世界 中 的 椅子 并 
不 理会 你 对 它 说 的 话 。KB 通常 不 是 用 来 与 椅子 进行 交互 而 是 用 来 推理 关于 椅子 
的 信息 的 。 真实 的 椅子 只 会 停留 在 那里 ， 直到 它 被 一 个 物理 的 Agent 移动 了 才 会 
离开 原 处 。 
。 在 KB 中 ， 一 个 对 象 的 表示 仅仅 是 在 一 个 (或 几 个 ) 抽 象 水 平 上 的 近似 。 喜 实 的 对 
象 往往 要 比 表示 出 的 复杂 得 多 。 我 们 通常 不 去 表示 一 个 椅子 中 的 年 维 个 体 。 在 
OOP 系统 中 ， 则 仅 有 表示 出 的 对 象 的 属性 。 系 统 能 够 知道 关于 一 个 Java 对 象 的 所 
有 情况 ， 而 不 知道 真实 的 个 体 。 


。 Java 中 的 类 结构 用 来 表示 设计 的 对 象 。 系 统 分 析 员 或 程序 员 来 创建 一 个 设计 。 例 


如 ， 在 Java 中 ， 一 个 对 象 仅 是 最 低级 别 的 一 个 类 成 员 。 在 Java 中 没有 多 重 继承 的 
概念 。 真 实 对 象 并 没有 很 好 地 得 到 表达 。 一 个 人 可 以 是 一 个 足球 教练 、 一 个 数学 
家 或 是 一 位 母亲 。 
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。 计算 机 程序 使 用 的 数据 结构 不 能 有 不 确定 性 ; 它 必 须 选 择 使 用 特定 的 数据 结构 。 
然而 ， 现 实 世界 中 的 事物 的 类 型 对 于 我 们 来 说 具有 不 确定 性 。 

。 实际 中 ，KB 中 的 模型 表示 不 能 执行 任何 操作 。 在 OOP 系统 中 ， 对 象 完 成 计算 工 
作 。 在 KB 中， 仅仅 是 一 个 表示 ， 即 其 仅 是 引用 了 世界 中 的 一 个 对 象 。 

。 尽管 面向 对 象 建 模 语言 ， 如 UML, TATRA KB， 但 这 并 不 一 定 是 最 和 佳 选择 。 
一 个 好 的 OO 建 模 工 具 提 供 了 一 些 功能 以 帮助 构建 好 的 设计 。 然 而 ， 我 们 要 建 模 
的 世界 可 能 根本 没有 一 个 好 的 设计 。 试图 为 一 个 凌乱 的 世界 构建 一 个 好 的 设计 模 
式 可 能 没有 什么 益处 。 i 


一 个 使 用 导出 知识 的 标准 方法 是 将 个 体 划 分 为 类 。 我 们 将 通用 属性 赋予 类 ， 从 而 使 得 
个 体 可 以 继承 类 的 属性 。 我 们 将 个 体 划 分 为 类 的 原因 是 类 的 成 员 要 么 具有 共同 的 特性 ， 要 
么 具有 共同 且 有 意义 的 属性 (参考 后 文 的 “ 亚 里 士 多 德 定 义 ”)。 i 

类 (class) 是 那些 实际 的 或 潜在 的 属于 该 类 的 个 体 的 集合 。 逻 辑 上 ， 这 是 一 个 内 酒 
(intensional) 集 合 ， 直 一 个 特征 函数 Cecharacteristic function) 定义， 如 果 一 个 体 属 于 该 类 则 
其 特征 函数 为 真 ， 和 否则 为 假 。 另 一 个 可 选 方法 是 外 延 (extensional) 集 合 ， 其 由 属于 该 类 的 
成 员 列 表 定 义 。 

例如 ,，“ 椅 子 ” 类 是 所 有 可 称 为 椅子 的 事物 的 集合 。 我 们 不 希望 将 是 椅子 的 事物 作为 该 
集合 的 定义 ， 因 为 尚未 做 好 的 椅子 也 属于 椅子 类 。 我 们 不 希望 两 个 类 仅 因 为 有 相同 的 成 员 
而 等 价 。 例 如 ， 绿 色 的 独 角 兽 类 和 高 度 恰好 为 124 米 的 椅子 类 是 不 同 的 类 ， 即 使 它们 含有 
相同 的 元 素 ; 这 两 个 集合 均 为 空 。 

依据 类 的 定义 ， 任 何 可 以 被 描述 的 集合 均 可 成 为 一 个 类 。 例 如 ， 包 含 数字 17 的 集合 、 
伦敦 塔 和 凯撒 大 帝 的 左 脚 都 可 以 是 一 个 类 ， 但 这 些 类 不 是 很 有 用 。 一 个 自然 类 (Cnatural 
kind) 是 使 用 该 类 比 不 使 用 该 类 可 更 简洁 地 描述 事物 的 那些 类 。 例如 ,“ 哺 乳 动 物 " 是 一 个 
自然 类 ， 对 哺乳 动物 共有 特性 的 描述 形成 一 个 知识 库 ， 使 用 这 个 知识 库 要 比 不 使 用 知识 
库 、 重 复 描述 哺乳 动物 的 共同 特性 更 加 简洁 。 

我 们 使 用 type 属性 来 表示 “是 一 个 类 的 成 员 ”。 从 而 ， 在 限定 子 句 语言 中 有 : 

prop(X .type,C) 
表示 个体 X BAC 的 一 个 成 员 。 

创建 RDF 和 RDF 模式 的 人 使 用 的 属性 正 是 我 们 在 这 里 为 表达 类 的 成 员 关 系 所 需要 的 
属性 。 在 Turtle 语言 中 ， 我 们 可 以 定义 如 下 缩写 : 

@ prefix rdf; (http://www. w3. org/1999/02/22-rdf-syntax-ns# ). 

@prefix rdfs: (http: //www. w3. org/2000/01/rdf-schema# >. 

给 定 上 述 声明 ，rdf:type 表示 属性 type， 该 属性 将 个 体 与 其 所 属 的 类 关联 起 来 。 通 过 
引用 URI 中 的 type 的 定义 ， 这 就 变 成 了 一 种 标准 定义 ， 其 能 够 被 他 人 所用， 上 且 能 区 分 于 
“type” 的 其 他 含义 。 

类 间 的 rdfs; subClassOf 属性 指明 了 一 个 类 是 另 一 个 类 的 子 集 。 在 Turtle 中 

S rdfs;subClassOf C. 
表示 类 S 是 类 C 的 子 类 。 从 集合 的 角度 来 说 ， 这 就 意味 着 S 是 C 的 一 个 子 集 。 也 就 是 说 ， 
类 S 中 的 每 一 个 体 都 是 类 C 中 的 个 体 。 

【 例 13-10】 在 例 13-7 中 明确 规定 了 计算 机 comp_2347 的 商标 是 一 个 柠檬 盘 (Clemon 
disc) 。 你 可 能 知道 所 有 的 Lemon 牌 计 算 机 都 使 用 这 个 商标 。 因 此 ， 另 一 种 表示 方法 是 将 
该 商标 与 lomon_computer 联系 起 来 ， 然 后 再 导出 comp_2347 的 商标 。 这 个 表示 法 的 优点 
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在 于 当 你 发 现 另 一 台 Lemon 牌 的 计算 机 时 ， 你 可 以 推导 出 它 的 商标 。 
在 Turtle 中 ,语句 
:lemon_computer rdfs;subClassOf:computer. 


:lemon_laptop_10000 rdfs:subClassOf:lemon_ computer. 


:comp 2347 rdf:type:lemon_laptop_10000. 
说 明 一 个 lemon 牌 计算 机 是 一 种 计算 机 ,一 个 lemon laptop 10000 是 一 个 lemon 牌 计算 
机 ， 及 comp_2347 是 一 个 lemon laptop 10000 型 的 计算 机 。 一 个 扩展 的 例子 如 图 13-2 所 
示 ， 其 中 带 阴 影 的 矩形 表示 类 ， 从 类 发 出 的 箭头 不 是 类 的 属性 而 是 类 成 员 的 属性 。 < 


rdfs:subClassOf 


职位 


|_ sam | 
(工作 地 点 ) 被 管理 


in_building 属于 
办 公 地 点 | fran | 


图 13-2 允许 继承 的 语义 网 络 


类 型 和 子 类 之 间 的 关系 可 以 写成 一 个 限定 子 句 的 形式 : 

prop (X,type,C)=— 
prop(X,type,S) A 
prop(S,subClassOf,C) 

你 可 以 把 type 和 subClassOf 看 做 是 一 种 允许 属性 继承 (property inheritance) 的 特殊 
属性 。 属 性 继承 是 指 在 类 的 层次 上 确定 了 一 个 属性 的 值 时 ， 类 的 成 员 能 够 继承 它 。 如 果 类 
c 的 所 有 成 员 的 属性 zp 的 值 为 w， 则 在 Datalog 中 可 写 为 : 

prop (Ind, psv) = 

prop(Ind,type,c). 

该 规则 与 前 面 提 到 的 将 类 型 与 子 类 型 联系 起 来 的 规则 一 起 可 用 于 属性 的 继承 。 

【 例 13-11] 所 有 lemon 牌 计算 机 都 有 一 个 柠檬 盘 作 为 商标 ， 其 颜色 为 黄色 和 绿色 ( 参 
见 图 13-2 中 的 logo Ml color 箭头 )。 这 可 使 用 下 面 的 Datalog 程序 来 表示 : 


prop (X,has_logo,lemon_disc)<— 







prop(X ,type,lemon_computer). 
prop (X color, green) < 
prop(X,type,lemon_computer). 
prop (X color, yellow)< 
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prop(X,type,lemon_computer). 

可 从 上 述 子 句 中 导出 的 prop 关系 本 质 上 与 可 从 图 13-1 中 的 无 层次 的 语义 网 络 中 导出 
的 结果 一 致 。 通 过 该 结构 化 的 表示 法 ， 在 增加 一 个 新 的 Lemon Laptop 10000 型 计算 机 时 ， 
你 只 需 声 明 其 为 一 个 Lemon Laptop 10000 型 计算 机 ， 而 其 颜色 和 商标 属性 均 可 通过 继承 
关系 导出 。 ~< 

RDF 和 Turtle 中 没有 限定 子 名 。 在 这 些 语言 中 ， 类 的 成 员 关 系 不 表示 为 谓词 ， 而 是 
表示 为 集合 。 为 表示 集合 S 的 所 有 元 素 对 于 谓词 p BR, 我 们 可 以 说 S 是 对 于 谓词 p 
来 说 其 值 为 v 的 所 有 事物 的 一 个 子 集 。 

【 例 13-121 为 说 明 所 有 的 lemon 牌 计算 机 都 有 一 个 柠 榜 盘 商标 ， 我 们 说 lemon 牌 计 
算 机 是 属性 has_logo 的 取 值 为 lemon_disc 的 所 有 事物 集合 的 一 个 子 集 。 

这 个 内 容 的 一 个 表示 如 图 13-3 所 示 。 其 中 ,:computer 和 :logo 都 是 类 , :lemon_disc 是 
类 .logo 的 成 员 ,: has_logo 是 一 个 属性 ， 其 域 为 ; computer， 其 值 域 是 : logos: lemon_ 
computer 是 :computer 的 一 个 子 类 。 它 也 是 :has logo 属性 为 :lemon_disc 的 所 有 个 体 的 集 
合 的 一 个 子 类 











@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#>. 
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. 
@prefix owl: <http://www.w3.org/2002/07/owl#>. 

@prefix : <#>. 



















: computer rdf:type rdfs:Class. 
: logo rdf:type rdfs:Class. 
:lemon_disc rdf:type :logo. 
thas_logo 
rdf:type rdf:Property ; 
rdfs:domain :computer ; 
rdfs:range :logo. 
: lemon_computer 
rdf :type rdfs:Class ; 
rdfs:subClassOf :computer ; 
rdfs:subClassOf 
owl: 0bjectHasValue(:has_logo :lemon_disc), 


图 13-3 fj 13-12 的 Turtle 表示 


owl:ObjectHasValue 是 OWL( 人 参见 下 面 的 解释 ) 类 的 构造 函数 ， 从 而 owl: ObjectHasValue 
C:has logo:lemon disc) 是 属性 :has_logo 的 值 为 :lemon_disc 的 所 有 个 体 的 类 。 < 

对 于 决定 哪些 应 是 原始 的 ， 哪 些 应 是 导出 的 ， 有 如 下 一 些 有 用 的 一 般 原则 : 

。 当 将 一 个 特性 关联 到 一 个 体 时 ， 选 择 最 一 般 的 类 C， 使 得 该 个 体 属于 类 C H% C 
的 所 有 成 员 均 有 该 特性 ， 同 时 该 特性 与 类 C 相关 联 。 可 以 使 用 继承 来 为 该 个 体 和 
类 C 的 所 有 成 员 导 出 特性 。 这 种 表示 方式 往往 能 使 知识 库 更 加 简洁 ， 并 且 意 味 着 
可 以 容易 地 添加 新 个 体 ， 原 因 是 这 些 新 个 体 如 果 属 于 类 C 则 它们 就 自动 地 继承 了 
该 类 的 特性 。 

。 不 要 将 类 的 或 有 特性 关联 到 类 上 。 或 有 特性 (contingent attribute) 是 其 值 随 环境 的 
变化 而 变化 的 一 类 特性 。 例 如 ， 在 当前 的 情况 下 ， 有 可 能 购买 的 所 有 的 计算 机 都 
装 在 棕色 盒子 中 。 然 而 ， 将 此 作为 一 个 特性 关联 到 computer 类 却 不 是 一 个 好 主 
意 ， 因 为 对 于 购买 的 其 他 的 计算 机 这 一 点 不 一 定 成 立 。 
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。 公理 化 的 因果 方向 。 如 果 要 在 原始 原因 和 原始 结果 间 做 出 选择 ， 则 选择 原始 原因 。 
这 样 做 ， 在 时 域 发 生变 化 时 ， 信 息 会 更 可 能 保持 稳定 。 


13.3 本体 与 知识 共享 


构建 大 型 的 基于 知识 的 系统 是 很 复杂 的 ， 原 因 如 下 : 

1) 知识 往往 来 自 多 种 渠道 ， 需 要 集成 。 此外， 这 些 知识 来 源 可 能 对 世界 做 了 不 同 的 
划分 。 通 常情 况 是 ， 知 识 来 自 不 同 的 领域 ， 而 这 些 领域 各 自 有 独特 的 术语 且 根 据 自 己 的 需 
要 对 世界 做 了 划分 。 

2) 系统 随 着 时 间 的 推移 而 演化 ， 很 难 预 测 出 在 将 来 应 作出 的 明显 差别 。 

3) 参与 设计 知识 库 的 人 必须 选择 要 表示 出 哪些 个 体 和 关系 。 世 界 并 不 是 划分 为 个 体 ; 
对 世界 进行 划分 由 智能 Agent 完成 ， 这 也 是 其 理解 世界 的 方式 。 设 计 知 识 库 的 人 应 该 在 对 
世界 的 划分 上 达成 一 致 。 

4) 通常 ， 记 住 自己 定义 的 符号 的 含义 就 很 难 了 ， 更 不 用 说 去 弄 清 楚 他 人 定义 的 符号 
的 含义 了 。 这 一 点 有 两 方面 的 含义 : 

。 给 出 一 个 在 计算 机 中 使 用 的 符号 ， 确 定 其 含义 ， 

。 给 出 某 人 头脑 中 的 一 个 概念 ， 确 定 应 该 使 用 哪个 符号 来 表示 它 ; 也 就 是 说 ， 确 定 

该 概念 是 否 已 经 使 用 ， 如 果 已 经 使 用 ， 则 和 弄 清 楚 其 当前 的 符号 表示 。 

为 了 共享 和 传递 知识 ， 制 定 一 个 共同 的 词汇 表 并 统一 词汇 的 含义 是 十 分 重要 的 。 

概念 化 (conceptualization) 是 在 计算 机 使 用 的 符号 ( 即 词汇 ) 与 世界 中 的 个 体 和 关系 之 
间 的 映射 。 它 为 世界 提供 了 一 个 特定 的 抽象 ， 并 为 该 抽象 提供 了 符号 表示 。 对 于 小 型 知 
识 库 ， 这 种 概念 化 可 以 存在 于 设计 者 的 头脑 中 ， 或 者 可 以 使 用 自然 语言 在 文档 中 给 予 确 
定 。 这 种 非 形式 化 的 概念 化 表示 不 适用 于 大 型 系统 一 在 大 型 系统 中 必须 共享 这 种 概 
念 化 。 

在 哲学 范畴 中 ， 本 体 论 Contology) 研 究 的 是 存在 什么 。 在 人 工 智 能 范畴 中 ， 本 体 是 一 
个 信息 系统 中 符号 含义 的 规范 。 也 就 是 说 ， 本 体 是 一 个 概念 化 的 规范 。 它 是 假设 存在 哪些 
个 体 和 关系 以 及 与 之 相关 的 术语 的 规范 。 通 常 ， 它 指定 个 体 可 被 归于 哪些 类 型 ， 将 使 用 哪 
些 属 性 ， 并 给 出 一 些 限 制 词 汇 使 用 的 公理 。 

【 例 13-131 关于 个 体 的 能 够 出 现在 地 图 上 的 本 体 可 以 明确 符号 “ApertmentBuilding” 
表示 公寓 楼 。 本 体 并 不 定义 一 座 公 寓 楼 ， 但 它 会 对 公寓 楼 有 足够 的 描述 从 而 使 得 其 他 人 能 
够 理解 这 个 定义 。 我 们 希望 那些 倾向 于 使 用 不 同 符号 的 人 能 够 使 用 该 本 体 来 找到 合适 使 用 
的 符号 (参见 图 13-4)。 多 个 人 能 够 一 致 地 使 用 这 些 符号 。 本 体 还 应 能 让 人 们 检查 符号 的 含 
义 。 也 就 是 说 ， 对 于 一 个 概念 ， 他 们 希望 能 够 找到 对 应 的 符号 并 使 用 那个 符号 ， 且 他 们 希 
望 能 够 确定 其 含义 。 

本 体 中 可 能 给 出 了 一 些 公理 来 限制 某 些 符号 的 使 用 。 例 如 ， 本 体 可 以 指定 公寓 楼 是 大 
楼 ， 而 大 楼 是 人 工 建造 的 物体 。 它 可 能 给 出 了 大 楼 大 小 的 限制 ， 从 而 使 得 鞋 盒 和 城市 都 不 
属于 大 楼 。 本 体 也 可 能 说 明 一 个 大 楼 不 能 同时 出 现在 两 个 地 理 上 分 散 的 地 点 (所 以 如 果 你 
把 大 楼 的 一 部 分 移动 到 不 同 的 位 置 ， 则 该 大 楼 已 经 不 再 是 一 个 单一 的 大 楼 ) 。 因 为 公寓 楼 
是 大 楼 ， 所 以 上 述 对 大 楼 的 限制 也 适用 于 公寓 楼 。 < 
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图 13-4 从 概念 化 映射 到 符号 


语义 网 

语义 网 (semantic web) 是 允许 将 机 器 可 解释 的 知识 分 布 到 万 维 网 上 的 一 种 方法 。 网 站 
可 提供 被 计算 机 使 用 的 信息 ， 而 不 是 仅 能 提供 让 人 阅读 的 HTML 页 面 。 

在 最 基本 的 层次 上 ，XML(the Extensible Markup Language) 提供 了 一 个 为 机 器 的 阅 
读 而 设计 的 句法 ， 且 该 名 法 也 可 供 人 阅读 。 它 蚌 一 个 基于 文本 的 语言 ， 其 中 的 项 使 用 分 屋 
的 方式 来 标注 。XML 的 句法 可 以 很 复杂 ， 但 在 最 简单 的 层面 上 ， 标 注 或 者 以 (tag"…/) 的 
形式 存在 ， 或 者 以 (tag…)…(《/tag) 的 形式 存在 。 

URI(Uniform Resource Identifier) 用 来 唯一 标识 一 个 资源 。 资 源 是 可 以 被 唯一 标识 的 
任何 事物 。 一 个 URI 是 指示 了 一 个 资源 的 字符 串 ， 如 一 个 网 页 、 一 个 人 或 一 个 公司 。URI 
通常 使 用 网 络 地 址 的 句法 。 

RDF(Resource Description Framework) 是 一 个 建立 在 XML 上 的 语言 ， 提 供 了 个 体 - 
属性 = 值 的 三 元 组 。 

RDF-S(RDF Schema) 允 许 你 使 用 其 他 资源 (她 使 用 subClassOf) 来 定义 资源 (也 包括 属 
性 )。RDF-S 也 可 以 限制 域 和 属性 的 范围 ， 并 提供 了 容器 (集合 、 序 列 及 可 选项 一 一 其 中 必 
有 一 个 为 真 )。 

RDF 允许 句子 使 用 其 自己 的 语言 具体 化 。 这 意味 着 它 可 以 表示 任意 的 逻辑 公式 ， 因 
此 通常 不 可 判定 。 不 可 判定 未 必 是 一 件 坏事 ， 它 只 是 意味 着 你 不 能 确定 计算 可 能 需要 的 时 
间 。 带 有 函数 符号 的 简单 逻辑 程序 及 几乎 所 有 的 编程 语言 都 是 不 可 判定 的 。 

OWL(Web Ontology Language) 是 万 维 网 的 本 体 语言 。 它 定义 了 具有 固定 解释 的 一 些 
类 和 和 属性， 这 些 类 和 属性 可 用 于 描述 类 、 属 性 和 个 体 。 它 有 内 置 的 判定 个 体 、 类 和 属性 等 
价 的 机 制 ， 另 外 还 有 对 域 、 属 性 范围 和 其 他 的 属性 约束 的 限制 (如 传递 性 和 基数 性 ) 。 

人 们 色 对 构建 大 型 的 通用 本 体 做 出 了 一 些 努 办 ;如 cyc(www. cyc. com)， 不 过 ， 建 立 
语义 网 的 目标 是 将 各 个 团体 聚拢 到 本 体 上 来 。 任 何人 都 可 以 建立 一 个 本 体 。 想 要 建立 一 个 
知识 库 的 人 可 以 使 用 现 有 的 本 体 ， 也 可 开发 他 们 自己 的 本 体 一 一 通常 都 是 建立 在 现存 本 体 
的 基础 上 。 因 为 获得 语义 互 操作 性 是 知识 库 建 立 者 的 意愿 ， 所 以 公司 和 个 体 应 该 尽量 为 他 
们 的 领域 采用 标准 的 本 体 ， 或 者 开发 一 个 从 他 们 的 本 体 到 其 他 本 体 之 间 的 映射 。 
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本 体 通常 独立 于 特定 的 应 用 ， inhi ceili all yi 一 个 本 体 由 
下 面 几 部 分 组 成 : 
。 知识 库 中 要 描述 事物 类 别 的 词汇 (包括 类 和 属性 ); 
。 类 间 的 组 织 ， 如 使 用 subClassOf 或 subPropertyOf, 或 使 用 亚 里 土 多 德 定义 建立 
类 间 的 层次 结构 ; 

。 限制 一 些 符号 的 含义 以 更 好 地 反映 它们 的 含义 的 公理 ， 如 一 些 属性 是 传递 的 、 域 
和 范围 是 受 限制 的 ， 或 对 个 体 的 一 个 属性 的 取 值 个 数 的 限制 。 有 些 时 候 ， 一 些 关 
系 由 更 基本 的 关系 来 定义 ， 但 最 终 是 建立 在 原始 关系 上 

本 体 并 不 描述 在 设计 时 尚 不 知道 的 个 体 。 例 如 ， 描 述 建 筑 物 的 本 体 通 常 不 包括 实际 的 
建筑 物 。 本 体 可 以 描述 固定 的 和 应 该 共享 的 个 体 ， 如 一 周 中 的 几 天 ， 或 一 些 颜 色 。 

【 例 13-14] 考虑 一 个 设计 目的 是 寻找 住宿 的 交易 Agent。 用 户 可 以 使 用 这 样 的 一 
Agent 来 描述 他 们 期 望 的 住宿 条 件 。 交 易 Agent 可 以 搜索 多 个 知识 库 以 找到 合适 的 住所 ， 
或 在 有 合适 的 住所 时 通知 用 户 。 本 体 需 要 为 用 户 明 确 符 号 的 含义 并 允许 知识 库 间 的 互 操 
作 。 本 体 提供 了 一 种 媒介 将 用 户 需 求 和 知识 库 连接 在 一 起 。 

在 这 样 的 领域 中 ， 房 屋 和 公寓 楼 可 能 都 是 居民 楼 。 尽 管 推荐 租 一 套房 子 还 是 推荐 租 一 个 
公寓 楼 中 的 一 套 公 寓 应 该 很 慎重 ， 但 为 没有 明确 说 明 想 租 整 个 公寓 楼 的 人 ， 推 荐 租 整个 公寓 
楼 却 可 以 不 那么 慎重 。 一 个 “居住 单元 ”可 定义 为 一 些 共同 生活 的 人 居住 的 房间 集合 ， 也 可 能 
是 房屋 中 介 提 供 的 出 租 单元 。 在 某 些 时 候 ， 设计 者 必须 决定 一 个 房屋 中 的 一 个 房间 是 一 个 居 
住 单元 ， 还 是 一 个 用 于 出 租 的 共享 房间 的 一 部 分 是 一 个 居住 单元 。 通 常 ， 边 界 问题 一 一 那些 
最 初 没有 预料 到 的 问题 一 一 并 没有 明确 刻画 ， 但 随 着 本 体 的 演化 而 逐步 有 了 好 的 定义 。 

本 体 将 不 包含 对 实际 的 房屋 或 公寓 的 描述 ， 因 为 这 些 可 住宿 的 房屋 会 随时 间 而 改变 ， 
但 是 本 体 词汇 的 含义 不 会 改变 。 < 

本 体 的 主要 目的 是 文档 化 符号 的 含义 ， 即 符号 (计算 机 中 的 ) 与 概念 (在 人 头脑 中 的 ) 之 
间 的 映射 。 给 定 一 个 符号 ， 人 们 能 够 使 用 本 体 来 确定 该 符号 的 含义 。 当 需要 表示 一 个 概念 
时 ， 人 们 使 用 本 体 来 查找 合适 的 符号 或 者 确定 该 概念 在 本 体 中 尚 不 存在 。 第 二 个 目的 一 一 





主要 挑战 是 组 织 要 表达 的 概念 以 允许 人 们 将 这 些 概 念 映射 到 计算 机 中 的 符号 上 ， 生 使 得 计 
算 机 能 从 表述 的 事实 出 发 推理 出 有 用 的 新 知识 。 


亚 里 士 多 德 定义 


为 对 和 象 分 类 一 一 现代 本 体 论 的 基础 一 一 有 一 个 很 长 的 历史 。 亚 里 士 多 德 (公元 前 350 
年 ) 提 出 使 用 下 面 的 方式 来 给 出 类 C 的 定义 : 

z APE C 的 超 类 。 

。 RARE: 区 分 类 C 的 成 员 与 超 类 C 的 其 他 成 员 的 属性 。 

亚 里 士 多 德 预 见 到 了 在 定义 中 会 出 现 的 许多 问题 : 

如 果 种 类 是 不 同 的 且 相 互 并 列 ， 则 它们 的 区 别 特 征 就 是 它们 在 类 别 上 的 不 同 。 以 “ 动 
物 ” 种 类 和 “知识 ”种 类 为 例 。“ 有 脚 "、“ 两 只 脚 "、“ 有 想 膀 ”、“ 水 生 ” 是 “动物 "种 类 的 区 别 
特征 ; 知识 类 别 却 不 能 依靠 上 述 区 别 特征 来 区 分 。 知 识 的 不 同类 别 不 能 通过 “两 只 脚 ” 来 区 
分 。( 亚 里 士 多 德 ， 公 元 前 350 年 ) 

注意 ， 这 里 的 “并 列 ” 指 的 是 两 方 没有 从 属 关 系 。 

在 现代 的 本 体 中 ， 我 们 会 说 “动物 ”是 一 个 类 而 “知识 ?是 另 一 个 类 。 属 性 “两 只 脚 ” 的 域 
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为 “动物 ”。 如 果 某 事物 是 知识 的 一 个 实例 ， 则 它 对 于 属性 “两 只 脚 ”? 没 有 取 值 。 
为 根据 亚 里 士 多 德 定 义 (Aristotelian definition) # 1 -A Ah, BERT RH 
工作 : 
。 对 每 一 个 你 想 要 定义 的 类 ， 确定 一 个 相关 的 超 类 ， 然 后 选 出 那些 将 该 类 区 分 于 其 
他 子 类 的 特性 。 每 一 个 特性 提供 了 一 个 属性 及 其 取 值 。 

。 对 于 每 个 属性 ， 定 义 一 个 最 一 般 的 且 该 属性 对 其 来 说 有 意义 的 类 ， 然 后 定义 该 属 
性 的 域 为 此 类 。 将 该 属性 有 意义 的 范围 定义 为 一 个 类 (可 以 使 用 枚 举 其 值 或 使 用 亚 
里 士 多 德 定 义 的 方法 来 定义 该 范围 类 )。 

这 个 过 程 可 以 很 复杂 。 例 如 ， 定 义 “ 奢 华 家 具 ” 时 ， 你 可 能 认为 其 超 类 是 “家 具 ”， 其 显 
著 特 点 是 成 本 高 县 柔软 。 家 有 具 的 柔软 和 岩石 的 柔软 是 不 同 的 。 你 还 可 能 希望 区 分 其 与 肌理 
的 差别 (它们 可 能 都 被 认为 是 软 的 )。 

这 种 方法 通常 不 会 给 出 一 个 局 次 结构 。 一 个 对 象 可 以 属于 许多 类 。 每 一 个 类 不 是 仅 有 
一 个 最 具体 的 超 类 。 然 而 ， 这 种 结构 仍然 可 以 直接 检查 一 个 类 是 否 是 另 一 个 类 的 子 类 、 栓 
查 一 个 类 的 含义 以 及 确定 在 你 的 头脑 中 与 该 类 对 应 的 概念 。 

在 极 少 数 情况 下 ， 按 这 种 方法 会 构成 一 个 树 形 结构 ， 其 中 最 著名 的 是 针对 生物 界 的 林 
#5) H(Linnaean taxonomy)。 这 个 分 类 是 树 形 结构 源 于 类 似 生物 的 进化 过 程 。 在 其 他 领 
域 强制 使 用 树 形 结构 一 直 不 太 成 功 。 


13. 3. 1 描述 逻辑 


统一 资源 标识 符 具有 一 定 的 意义 ， 因 为 有 人 发 布 它 说 它 有 意义 ， 又 因为 人 们 根据 这 个 
含义 来 使 用 它 。 这 是 现在 的 方式 ， 但 我 们 想 获得 更 多 。 我 们 希望 获得 一 些 含义 从 而 允许 计 
算 机 能 在 其 上 做 一 些 推理 。 

现代 本 体 语言 ， 如 OWL， 建 立 在 描述 逻辑 (description logic) HAH EL. HGR H A 
来 描述 类 、 属 性 和 个 体 。 描 述 逻 辑 的 主要 思想 是 分 离 如 下 内 容 : 

。 描述 术语 的 术语 知识 库 (terminological knowledge base)， 甚 中 术语 应 保持 不 变 ， 

尽管 其 被 建 模 的 域 是 可 变 的 。 

。 描述 在 一 些 域 中 、 某 些 事 件 点 时 ， 哪 些 事 物 为 真 的 断言 知识 库 (assertional knowl- 

edge base). 
通常 ， 术 语 知 识 库 在 设计 系统 时 定义 ， 它 又 定义 了 本 体 ， 且 它 只 在 词汇 含义 变化 时 才 
会 变化 ， 而 这 一 情况 很 少见 。 断 言 知 识 库 通常 包含 了 知识 ， 其 中 的 知识 是 与 特定 的 情况 紧 
密 相 关 的 ， 只 在 运行 时 才 会 知道 这 些 知识 。 
通常 使 用 三 元 组 来 定义 断言 知识 库 ， 而 使 用 一 种 如 OWL 的 语言 来 定义 术语 知识 库 。 
OWL 通过 下 面 几 个 方面 来 描述 域 : 
。 个 体 (individual): 在 世界 中 被 描述 的 事物 (一 个 特定 的 房子 或 一 个 特定 的 预订 都 可 
以 是 个 体 ) 。 

。 类 (class): 是 个 体 的 集合 。 类 是 所 有 实在 的 和 潜在 的 属于 该 类 的 事物 的 集合 。 例 
th. “房子 ”类 是 所 有 可 以 归 为 “房子 ”的 事物 的 集合 ， 而 不 仅 是 我 们 感 兴趣 的 域 中 
存在 的 房子 。 

。 属性 (property) : 用 来 描述 个 体 。 数 据 类 型 属性 (datatype property) 的 值 是 基本 数 

据 类 型 ， 如 整 型 或 字符 串 。 例 如 ，“streetName” 可 能 是 街道 和 字符 串 之 间 的 数据 
类 型 属性 。 对 象 属 性 (object property) 的 值 是 其 他 个 体 。 例如，“nextTo” 可 能 是 两 
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个 房子 之 间 的 属性 ，“onStreet” 可 能 是 房子 和 街道 之 间 的 属性 。 

OWL 有 三 个 变种 ， 甚 区别 在 于 对 类 和 属性 施加 的 限制 不 同 。 在 OWL-DL 和 OWL- 
Lite 中 ， 类 不 能 是 个 体 和 属性 ， 且 属性 也 不 能 是 个 体 。 在 OWL-Full 中 ,个体 、 属 性 和 类 
的 类 别 不 必 是 不 相交 的 。OWL-Lite 中 有 一 些 句 法 限制 ， 这 种 限制 不 影响 含义 ;但 可 使 推 
理 更 简单 。 

OWL 中 没有 唯一 名字 假设 ; 两 个 名 字 不 意味 着 它们 指 代 了 不 同 的 个 体 或 类 。 它 也 没 
有 知识 完备 性 假设 ; 它 不 假设 所 有 相关 的 事实 均 已 被 描述 。 

图 13-5 给 出 了 一 些 基 本 的 类 和 一 些 类 的 构造 函数 。 该 图 使 用 集合 符号 来 定义 一 个 类 
中 的 个 体 集合 。 图 13-6 给 出 了 OWL 的 基本 谓词 。 前 级 owl: 表示 来 自 OWL。 为 在 本 体 
中 使 用 这 些 属性 和 类 ， 你 可 引入 合适 的 UR 的 缩写 形式 : 


@prefix rdfs; <http://www.w3.org/2000/01/rdf-schema#>. 
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>. 
@prefix owl:  <http://www.w3.org/2002/07/owl#>. 


FRE OWL PRSA ER SIS ty ye. Be GERK, Pi KRAHE, n 表示 个 体 ，n 是 一 个 整数 。 
ESERE S 中 元 素 的 个 数 ; 





类 包含 的 内 容 
owl: Thing 所 有 个 体 
owl; Nothing 无 个 体 ( 空 集 ) 
owl; ObjectIntersectionOf(C , ++, Cy) FCN NC. 的 个 体 
owl; ObjectUnionOf(C,, +, Ci) 属于 CU…Ucx 的 个 体 
owl; ObjectComplementOf(C) 不 属于 C 的 个 体 
owl; ObjectOneOf(I;, *, I) Tha ey Ty 


: ObjectHasValue(P, D 

: ObjectAllValuesFrom(P, C) 

: ObjectSomeValuesFrom(P, C) 
: ObjectMinCardinality(n, P, C) 


: ObjectMaxCardinality(n, P, C) 


P y Hy€Ch>n} 


Py Hy € C}<n} 


属性 卫 的 值 为 1 的 个 体 ,， Mirz x PT} 

所 有 属性 P 的 值 属于 C KR, Ba, 2 P yyEC) 

属性 已 的 值 部 分 属于 C 的 个 体 ， 即 位 : JyECWH2z PP y) 

通过 属性 P 至少 与 4 个 C 类 的 个 体 关联 的 个 体式 ， 即 {zxz; # iy] 


通过 属性 卫 至 多 与 4 个 C 类 的 个 体 关 联 的 个 体 z， 即 {zx: H{yl| 2 


图 13-5 OWL 的 部 分 内 置 类 和 类 的 构造 函数 


在 上 述 两 个 图 中 ，zPy 是 一 个 三 元 组 。 请 注意 ， 这 意味 着 定义 谓词 的 含义 ， 而 不 是 定 
义 名 法。 谓词 可 以 使 用 不 同 的 句法 ， 如 XML, Turtle 或 传统 的 关系 符号 。 

有 一 个 属性 构造 函数 : owl: ObjectInverseOf(P), Hf P 的 道 属性 ， 即 其 为 属性 
P', ÑE yP `r 当 且 仅 当 xzPy。 请 注意 ， 这 仅 适 用 于 对 象 属性 ; 数据 类 型 属性 没有 逆 ， 
因为 数据 类 型 不 能 作为 三 元 组 的 主语 。 

上 面 两 个 图 中 列 出 的 类 和 陈述 并 不 完整 。 对 于 数据 类 型 属性 ， 具 有 对 应 的 合适 的 数据 





类 型 类 。 例 如 ，ow]l: DataSomeValuesFrom 和 owl: EquivalentDataProperities 对 于 数据 
类 型 属性 ， 其 相应 的 对 象 符号 具有 相同 的 定义 。 在 OWL 中 , 还 有 其 他 的 构造 方法 来 定义 
属性 、 评 论 、 注 释 、 版 本 控制 ， 及 导入 其 他 本 体 。 
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OWL 有 下 面 的 具有 固定 解释 的 谓词 ， 其 中 C, ER, P, RAHE, LET, rA y 是 全 称 量 化 变量 。 


描述 


rdf; type(I, C) 


rdfs; 
owl; 
owl; 
rdfs; 
rdfs: 
rdfs; 


owl: 


$ owl: 


owl; 
owl: 
owl; 
owl; 
owl; 
owl; 


owl; 


subClassOf(C; . C2) 
EquivalentClasses(C, , C2) 
DisjointClasses(C;, Cz) 

domain(P, C) 

range(P. C) 

subPropertyOf(P;, Pz) 
EquivalentObjectProperties(P;. P3) 
DisjointObjectProperties( PI, Ps) 
InverseObjectProperties( P; , P2) 
Samelndividual(I;, ++, Tn) 
DifferentIndividuals(I,, ++, 1,) 
FunctionalObjectProperty( P) 
InverseFunctionalObjectProperty( P) 
TransitiveObjectProperty( P) 
SymmetricObjectProperty 


含义 
re'c 
GC 
Ci=C: 
GiNCz={} 
MRF Pys M EC 
MRE Py, W yEC 
Piy 4% Py 
aP\y, AMH xPoy 
xP) y ARAE Pey 
Piy, HHAH yPsz 
ViVEL=h 
ViVEjFRMS IGAR 
如 果 2Py H Pys W y= yz 
WR zl Py HaePy, W zi 一 :zz 
如 果 Py E yPz, M y=z 
如 果 工 Py， 则 yPz 








图 13-6 RDF, RDF-S 和 OWL 的 部 分 内 置 谓词 


【 例 13-15] Turtle 符号 中 类 构造 器 的 例子 ， 论 元 间 使 用 空间 : 

owl:MinCardinality(2:owns:building) 

表示 拥有 两 个 或 两 个 以 上 的 建筑 的 个 体 的 类 。 也 就 是 说 ， 它 是 集合 {zx: Jy Ji 
x: owns i, H x: owns i H. i) Fiz} « 必须 在 声明 中 使 用 这 个 类 构造 器 ， 例如 ， 声明 某 个 
体 是 这 个 类 的 一 个 成 员 或 某 个 类 是 其 他 类 的 等 价 类 。 ~“ 

【 例 13-16] 考虑 公寓 楼 的 亚 里 士 多 德 定义 。 一 座 公寓 楼 可 以 看 做 是 一 栋 居 住 建筑 ， 
它 有 多 个 单元 ， 并 且 可 以 被 租用 。( 这 是 相对 于 每 个 单元 可 以 单独 出 售 的 独立 产权 公寓 楼 ， 
或 只 有 一 个 单元 的 房屋 ) 假 设 ResidentialBuilding 类 是 Building 的 一 个 子 类 。 

先 定 义 功 能 对 象 属性 numberOfUnits， 域 为 ResidentialBuilding， 范 围 为 {one，two， 


moreThanTwo}。 在 Turtle 中 表示 为 : 


rnumberOfUnits rdf:type owl:Functional0bjectProperty; 
rdfs:domain :ResidentialBuilding; 
rdfs:range owl:OneOf(:one :two :moreThanTwo). 


相似 的 ， 可 以 定义 功能 对 象 属 性 ownership， 作 用 域 为 ResidentialBuilding， 值 为 
{rental, ownerOccupied, coop}. 

可 以 定义 一 个 公寓 大 楼 为 ResidentialBuilding， 甚 属性 numberOfUnits 的 值 为 more- 
ThanTwo， 属 性 ownership 的 值 为 rental。 为 了 使 用 OWL 描述 上 述 关 系 ， 定 义 一 个 类 的 
属性 aumberOfUnits， 其 值 为 moreThanTwo， 属 性 ownership 的 值 为 rental， 并 且说 Ap- 
artmentBuilding 与 这 些 类 的 交集 等 价 。Turtle 的 表示 为 : 


:ApartmentBuilding 
owl:EquivalentClasses 
owl:ObjectIntersectionOf ( 
owl:ObjectHasValue(;number0fiUnits :moreThanTwo) 
owl:DbjectHasValue(:ownership :rental) 
:ResidentialBuilding). 
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这 个 定义 可 以 回答 关于 公寓 楼 的 问题 ， 比 如 所 有 权 和 单元 数目 。 a 

前 面 的 示例 并 没有 真正 定义 ownership。 系 统 不 知道 ownership 意味 着 什么 ， 而 希望 
用 户 理解 其 含义 。 如 果 要 应 用 本 体 ， 应 该 保证 所 使 用 的 属性 和 类 与 其 他 用 户 使 用 此 本 体 所 
指 的 是 相同 事物 。 

领域 本 体 (domain ontology) 是 一 个 特定 的 领域 的 本 体 。 现 存 的 本 体 的 适用 领域 都 比较 
狭小 ， 大 多 数 是 为 特定 应 用 而 编写 的 。 编 写 领域 本 体 以 便 知识 共享 的 指导 方针 如 下 : 


尽量 使 用 现存 的 本 体 ， 这 意味 着 你 的 知识 库 将 能 够 与 使 用 相同 本 体 的 其 他 人 的 进 
行 交互 。 

如 果 现 存 的 本 体 不 完全 符合 你 的 需求 ， 尽 量 在 已 有 的 本 体 上 扩展 。 不 要 重新 构造 
本 体 ， 因 为 这 样 会 导致 那些 想 使 用 最 好 本 体 的 人 也 不 得 不 重新 选择 。 如 果 你 的 本 
体 包括 并 扩展 了 其 他 人 的 本 体 ， 其 他 人 也 会 选择 你 的 本 体 ， 因 为 它们 的 应 用 可 以 
自由 交互 。 

确保 本 体 和 邻近 的 本 体 是 可 以 集成 的 。 例 如 ， 关 于 度假 村 的 本 体 必 须 与 食品 、 海 
浴 、 休 闲 活动 等 本 体 进行 交互 。 尽 量 确保 它们 对 相同 的 事物 使 用 相同 的 术语 。 
尽量 适应 更 高 级 别 的 本 体 ( 见 下 文 )。 这 将 使 它 更 容易 与 他 人 的 知识 相 结合 。 

如 果 必 须 设计 一 个 新 的 本 体 ， 应 广泛 征求 其 他 潜在 用 户 的 意见 ， 这 将 使 新 的 本 体 
最 有 用 和 最 可 能 被 广泛 采用 。 

遵循 命名 约定 。 使 用 成 员 单 数 作为 标识 符 命名 一 个 类 。 例 如 ， 将 类 命名 为 Resort 
而 不 是 Resorts。 不 要 因为 Resort 是 一 种 概念 而 将 Resort 类 称 为 了 ResortConcept。 
当 命名 类 和 属性 时 要 考虑 到 它们 如 何 使 用 。 只 看 做 Resort 的 概念 ， 而 不 是 指 一 个 
具体 Resort( 参 见 下文 “ 类 和 概念 ”) 如 称 “ri 是 类 Resort” 比 “ni 是 类 Resorts” E Hf, 
也 比 “ri 是 类 ResortConcept” 更 好 。 

指定 本 体 之 间 的 匹配 。 有 时 当 本 体 独 立 产 生 时 必须 要 做 本 体 匹 配 ， 如 果 能 够 避免 
匹配 是 最 好 的 ， 它 使 得 利用 本 体 的 知识 更 复杂 ， 因 为 有 多 种 方式 表示 同一 事物 。 


使 用 Turtle 描述 OWL， 比 使 用 XML 更 容易 阅读 。 然 而 ，OWL 是 一 种 不 方便 大 多 数 
人 阅读 的 低级 语言 。OWL 被 设计 成 一 种 方便 机 器 阅读 的 规范 。 有 很 多 OWL 的 编辑 器 ， 
例如 Protégé(http: //protege. stanford. edu/) 。 本 体 编辑 器 应 该 支持 如 下 特征 : 


应 该 可 以 提供 最 合理 的 抽象 层面 上 输入 抽象 本 体 的 方式 。 

如 果 用 户 想 使 用 一 个 概念 ， 本 体 编 辑 器 应 容易 找到 输入 概念 对 应 的 术语 ， 或 者 确 
定 没有 输入 概念 对 应 的 术语 。 

为 某 类 人 确定 术语 的 相应 含义 。 

本 体 编辑 器 应 该 尽 可 能 容易 地 检查 本 体 的 正确 性 (例如 匹配 用 户 意图 的 术语 
的 解释 ) 。 

本 体 编辑 器 应 该 创建 一 个 其 他 人 能 够 使 用 的 本 体 。 这 意味 着 本 体 编辑 器 应 该 尽 可 
能 使 用 标准 化 的 语言 。 


类 和 概念 


由 于 符号 表示 概念 ， 所 以 很 容易 将 类 称 作 概念 (concept): 从 内 部 的 表示 映射 到 符号 
表示 的 对 象 或 关系 。 
例如 ， 由 于 不 存在 独 角 兽 ， 而 只 有 独 角 兽 的 概念 ， 所 以 很 容易 将 独 角 兽 类 称 为 “ 独 角 
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兽 概 念 ”， 然 而 独 角 普 与 独 荐 兽 的 概念 是 不 同 的 : 一 个 是 动物 ， 一 个 是 知识 的 子 类 。 独 角 
普 有 四 条 腿 ， 头 上 长 有 一 只 角 。 独 角 普 概念 没有 腿 或 角 。 独 角 善 一 般 不 会 出 现在 本 体 的 一 
个 类 中 ， 而 只 能 出 现在 独 角 兽 的 概念 中 。 没 有 独 角 兽 的 实例 ， 然 而 独 角 兽 概念 则 可 以 有 许 
多 实例 。 如 果 希 望 表 示 独 角 兽 这 种 动物 ， 应 该 使 用 术语 “ 独 角 兽 ”。 奶 果 希 一 表 示 独 角 兽 各 
念 ， 应 该 使 用 “ 独 角 兽 概念 ”表示 。 我 们 不 能 说 独 角 兽 概念 有 四 条 腿 ， 因为 知识 实例 没有 
腿 ， 只 有 动物 (和 家 具 ) 有 了 腿 。 

另 一 个 是 关于 地 质 构 造 板块 的 例子 ， 这 种 板块 可 能 存在 了 数 百 万 年 。 而 提出 “地 质 构 造 
板块 慨 念 ”的 时 间 不 到 一 百年 。 人 脑 中 可 以 有 地 质 运 动产 生 的 板块 这 种 概念 ， 但 是 人 脑 中 不 
能 存在 真实 的 地 质 运 动产 生 的 板块 。 很 显然 “地质 构造 板块 ?和 “地质 构造 板块 概念 ”具有 不 同 
的 属性 ， 有 很 大 的 不 同 。 当 表示 “地 质 构 造 板块 "时 不 要 使 用 “地 质 构 造 板块 概念 ”， 反 之 亦 然 。 

构建 本 体 时 常 犯 的 错误 是 称 对 象 为 概念 。 虽 然 你 可 以 自由 进行 命名 ,但 是 当 且 仅 当 别人 接 
受 你 的 本 体 定义 时 ， 知 识 共 享 才 变 得 有 意义 。 


13.3.2 顶层 本 体 


例 13-16 中 定义 了 可 用 于 公寓 大 楼 的 知识 库 的 
领域 本 体 。 每 个 领域 本 体 隐 式 或 显 式 地 假定 它 能 够 
适用 于 更 高 层次 的 本 体 。 建 立 一 个 一 致 的 顶层 的 本 
体 是 有 重要 意义 的 ， 可 以 方便 其 他 本 体 的 引用 和 适 
应 , -对 更 高 一 级 本 体 的 适应 会 使 得 本 体 间 更 容易 
交互 。 

BFO(Basic Formal Ontology， 基 本 形式 化 本 
体 ) 是 一 种 顶层 本 体 。BFO 的 分 类 见 图 13-7. 

BFO 的 最 顶层 为 实体 (entity)。OWL 称 为 层次 
事物 的 顶层 。 所 有 事物 都 可 以 称 为 实体 。 

实体 包括 持 存 体 (continuant) 和 偶然 体 Coccur- 
rent) 。 持 存 体 是 长 时 间 存 在 的 实体 ， 例 如 人 、 国 
家 、 笑 脸 、 花 的 气味 或 电子 邮件 。 偶 然 体 的 存在 时 
间 很 短暂 ， 如 生命 、 一 个 微笑 、 一 条 花 的 开放 或 发 
送 电子 邮件 这 个 动作 。 可 以 通过 判断 是 否 为 实体 的 
组 成 部 分 来 区 分 持 存 体 和 偶然 体 : 例如 手指 是 人 的 
一 部 分 ， 而 不 是 生活 的 一 部 分 ; 幼儿 期 是 人 生 的 一 
部 分 ， 而 不 是 人 的 一 部 分 。 持 存 体 参 与 偶然 体 的 创 
建 ， 持 续 一 段 时 间 的 过 程 和 瞬时 发 生 的 事件 都 是 偶 
然 体 。 

持 存 体 可 以 是 一 个 独立 持 存 体 (independent 
continuant)、 一 个 从 属 持 存 体 (dependent continu- 
ant) 或 一 个 空间 区 域 (spatial region)。 独 立 持 存 体 
可 以 是 一 个 单独 存在 的 实体 ， 也 可 以 是 另 一 个 实体 图 13-7 基本 形式 化 本 体 分 类 。 图 中 
的 一 部 分 ， 例 如， A. AR, E. ERR 缩 进 表示 子 类 关系 ， 每 个 分 
道 、 国 家 、 大 气 都 是 独立 持久 体 。 从 属 持 存 体 依赖 类 是 其 上 面 最 低 缩 进 分 类 的 
于 其 他 实体 而 存在 ， 但 不 是 其 他 实体 的 一 部 分 ， 例 直接 子 类 





RISE 本 体 和 基于 知识 的 系统 381 


如 ， 一 个 微笑 、 花 的 气味 、 笑 的 能 力 只 能 依赖 于 另 一 个 对 象 而 存在 。 空 间 区 域 是 空间 中 的 
一 个 区 域 , 例如， 一 个 炸 圈 饼 所 占用 的 空间 ,一 个 县 的 边界 ,或 一 个 有 最 佳 视角 的 景 
观点 。 

独立 持 存 体 可 以 进一步 划分 如 下 : 

。 场所 (site)， 是 由 其 他 持 存 体 定 义 的 。 例 如 ， 一 个 甜 甜 圈 的 孔 、 一 个 城市 、 某 个 人 
的 嘴 、 一 个 房间 都 属于 场所 。 场 所 可 能 会 存在 于 另 一 个 空间 区 域 中 随 着 包含 它 的 
空间 而 移动 。 

。 对 象 聚集 (object aggregate)， 由 一 类 对 象 组 成 ， 如 一 群 羊 、 一 支 足 球 队 或 一 堆 
wT. 

。 对 象 (object)， 是 一 个 自我 连接 的 实体 ， 对 象 增 加 或 损失 一 部 分 仍然 是 原 对 和 象 ( 例 
如 ， 失 去 了 一 些 头 发 、 一 种 信仰 ， 其 至 一 条 腿 的 人 仍然 是 同一 个 人 )。 常 见 的 对 象 
有 杯子 、 人 、 电 子 邮 件 、 相 对 论 或 系 鞋 带 的 技巧 。 

。 对 象 的 特殊 部 分 (fiat part of an object)， 是 对 和 象 没 有 明确 边界 的 部 分 ， 如 一 个 城市 
的 危险 地 区 、 一 个 组 织 样本 或 一 个 海滩 僻静 的 部 分 。 

*。 对 象 的 边界 (boundary of an object)， 持 存 体 的 边界 ， 例 如 地 球 的 表面 、 细 胞 壁 。 

空间 区 域 可 以 是 三 维 (立体 ) 的 、 三 维 (平面 ) 的 、 一 维 ( 线 ) 的 或 零 维 (点 ) 的 。 空 间 区 域 
不 依赖 于 其 他 对 象 。 空 间 区 域 不 随 对 象 位置 的 移动 而 移动 。 

从 属 持 存 体 是 一 个 特征 实体 或 可 实现 的 实体 。 特 征 (quality) 是 某 种 类 型 的 所 有 对 象 始 
终 拥 有 的 ， 例 如， 一 包 糖 的 质量 、 一 只 手 的 形状 、 杯 子 的 脆弱 性 、 视 图 的 美 、 光 的 亮度 、 
海洋 的 气味 。 虽 然 特 征 的 值 是 可 以 改变 的 ， 但 是 糖 总 是 有 质量 的 ， 手 总 是 有 形状 的 。 这 与 
实现 实体 (realizable entity) 形 成 对 比 ， 实 现实 体 的 值 可 以 为 空 ， 可 以 随 着 时 间 而 改变 。 一 
个 可 表示 的 实体 具有 下 列 特 征 之 一 : 

。 功能 (function)， 指 定 一 个 对 象 的 功能 。 人 和 例如， 一 个 响 啡 杯 的 功能 是 盛 放 响 啡 ; 心 

脏 的 功能 是 泵 血 。 | 

。 角色 (role) ， 指 定 一 个 目标 ， 不 必 是 对 象 设计 需要 的 ， 但 是 可 实现 的 。 例 如 ， 法 官 
是 一 种 角色 ， 送 咖 罪 是 一 种 角色 ， 摆 放 计算 机 显示 器 的 桌子 是 一 种 和 角色。 

。 处 置 (disposition) ， 对 象 上 发 生 的 事情 ， 例 如 ， 如 果 鞋 落 ， 杯 子 摔 破 就 是 一 个 处 
置 ; 如 果 不 冷藏 ， 蔬 菜 腐 烂 也 是 一 个 处 置 ; 如果 火柴 不 潮 ， 就 可 以 点 燃 也 是 一 个 
处 置 。 

实体 的 另外 一 个 主要 类 别 是 偶然 体 ， 下 列 实 体 都 属于 偶然 体 : 

。 时 域 范 围 (temporal region) 是 一 个 时 间 域 。 时 域 范围 或 是 连续 的 (如 果 两 个 点 在 该 
区 域 ， 那 么 这 两 个 点 之 间 的 点 也 在 该 区 域 ) 或 是 分 散 的 。 连 续 的 时 域 范 围 或 是 间 
隔 的 或 是 瞬间 的 (时 间 点 )。2011 年 3 月 1 日 ， 星期二， 是 一 个 时 间 间 隔 ; 当天 
下 午 3:31 是 一 个 时 间 点 。 从 3:00 到 4:00 间 的 每 个 星期 二 ， 是 一 个 分 散 时 域 
范围 。 

。 时 空 范围 (spatio-temporal region) 是 多 维 的 。 时 空 范 围 可 以 是 分 散 的 或 是 连续 的 。 
例如 ， 人 类 生活 所 占用 的 空间 属于 时 空 范围 。1812 年 加 拿 大 和 美国 之 间 的 边界 ， 
癌症 肿瘤 生长 的 区 域 都 是 时 空 范 围 。 

。 过 程 性 实体 (processual entity) 是 一 些 可 以 发 生 或 罕 发 的 实体 ， 活 动 实体 有 时 间 部 
分 (也 可 能 有 空间 部 分 )， 并 依赖 于 一 个 持 存 体 。 例 如 ， 乔 的 生命 中 有 枫 引 时 期 、 
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儿童 时 期 、 青 少年 时 期 和 成 年 后 时 期 等 部 分 ， 这 些 部 分 都 依赖 于 持 存 体 一 一 乔 。 


一 个 过 程 性 实体 包括 如 下 部 分 : 

。 过 程 (process)， 具 有 时 间 属 性 并 具有 明显 的 结束 点 。 例 如 一 条 生命 、 一 段 假 期 或 
诊断 会 议 。 

。 过 程 聚合 (process aggregate)， 是 进程 的 集合 ， 如 乐队 中 人 们 的 演奏 或 一 天 之 中 一 
组 飞机 的 飞行 。 


。 过 程 的 特殊 部 分 (fiat part of process), 无 确切 结束 点 的 进程 ， 例 如 一 个 假日 里 最 
有 趣 的 部 分 或 一 个 操作 中 最 重要 的 部 分 。 
。 过 程 性 上 下 文 (processual context)， 是 某 些 偶然 体 的 设置 ， 例 如 休息 是 恢复 活力 
的 设置 或 手术 是 防止 感染 的 设置 。 
。 过 程 的 边界 (boundary of a process) ， 是 一 个 进程 的 瞬时 界限 ， 例 如 一 个 机 器 人 开 
始 清理 实验 室 的 时 刻 或 出 生 的 时 刻 。 
上 述 分 类 有 助 于 其 他 本 体 的 建立 。 它 明确 领域 本 体 如 何 与 上 层 本 体 结合 ， 保 证 本 体 方 
便 的 整合 。 集 成 本 体 是 必要 的 ， 它 允许 应 用 来 引用 多 个 知识 库 ， 每 一 种 知识 库 都 可 能 使 用 
不 同 的 本 体 。 
设计 顶层 本 体 很 困难 。 顶 层 本 体 不 能 满足 所 有 用 户 的 需求 ， 总 会 出 现 有 问题 的 情形 . 
KE, 边界 情况 往往 不 好 指定 。 但 使 用 一 个 标准 的 顶层 本 体 有 助 于 本 体 的 连接 。 


13. 4 查询 用 户 和 其 他 知识 来 源 


在 5. 3. 2 节 的 讨论 中 得 出 用 户 不 是 知识 库 领 域 的 专家 的 结论 : 然而 他 们 往往 非常 了 解 
特定 情况 下 的 细节 ， 因 此 可 以 提供 一 个 知识 源 。 通 常情 况 下 ， 用 户 不 知道 相关 的 知识 和 需 
要 使 用 的 词汇 ， 因 此 不 可 能 告诉 系统 他 们 知道 的 知识 。 知 识 获取 的 一 方面 问题 是 ， 如 何 最 
有 效 地 从 用 户 那里 获取 知识 。 

最 简单 的 问题 形式 是 5. 3. 2 节 中 所 表示 的 “yes-or-no” 形 式 。 通 过 引入 变量 和 函数 符 
号 ， 可 以 询问 用 户 更 复杂 的 问题 。 

【 例 13-171 考虑 例 12-11 中 的 知识 库 ， 但 没有 “wp” 或 “down” 的 规则 。 假 设 用 户 可 以 
观察 到 开关 的 位 置 ， 为 了 使 用 户 能 够 被 询问 到 开关 的 位 置 的 问题 ， 问 题 wp(S) 和 dorwn(S) 
是 能 够 被 询问 的 。 下 面 是 对 于 询问 “?Liz(L)”( 即 用 户 被 询问 的 目标 ) 的 一 个 自 顶 向 下 证 明 过 
程 的 一 段 可 能 的 对 话 。 用 户 的 回复 用 黑体 标注 : 

Is up(s:) true? yes. 

Is up(s,) true? no. 

Is down(sz) true? no. 

Is up(s;) true? yes. 

ER: L=lz 

在 本 例 中 ，“up” 和 “down” 之 间 没 有 明确 的 相关 性 ， 所 以 系统 对 这 两 种 情况 都 会 
询问 。 < 

上 述 例子 中 的 本 体 很 简单 ， 我 们 假设 用 户 能 够 理解 这 个 问题 。 一 般 情 况 下 ， 询 问 用 户 
并 不 是 那么 简单 ， 问 题 必 须 以 用 户 能 够 理解 的 形式 设 定 ， 用 户 必 须 理解 问题 的 含义 和 预期 
的 回答 。 


RIZE 本体 和 基于 知识 的 系统 383 


13.4.1 函数 化 关系 


当 一 个 关系 被 函数 化 后 ， 即 使 用 户 没 有 直接 给 出 答案 ， 系 统 也 可 以 知道 询问 目标 的 答 
案 。 当 对 于 每 个 六 ， 有 唯一 的 Y rX, YAAN, XA rX, VR MAH. mR 
对 于 特定 的 祥 ， 系 统 已 经 找到 一 个 了 使 得 r+(X，Y) 为 真 ， 则 不 应 该 再 询问 更 多 关于 YY 的 
问题 。 

【 例 13-18】 在 前 面 例子 中 ， 当 用 户 已 经 告诉 系统 wp(ss) 为 真 时 ， 问 题 *Is down(s;) 
true?” 就 是 多 余 的 。 最 好 定义 一 个 关系 posCSw，pos)， 其 中 位 置 是 开关 的 函数 。 告 知 系统 
pos 是 函数 化 的 ; 每 个 开关 只 有 一 个 位 置 。 一 旦 系统 确定 了 一 个 开关 的 位 置 ， 则 不 会 再 询 
问 关于 此 开关 位 置 的 问题 。 E] 

询问 一 个 函数 化 关系 的 “yes-or-no” 问 题 通常 是 非常 低 效 的 。 不 要 枚 举 每 个 开关 的 位 
置 ， 并 且 问 是 否 是 那个 开关 ， 最 好 只 问 一 次 关于 开关 位 置 的 问题 ， 而 不 是 重复 提问 。 如 果 
系统 询问 一 个 人 的 年 龄 ， 直接 问 此 人 的 年 龄 要 好 于 列举 所 有 的 年 龄 并 逐个 询问 “trueror- 
false”. 

这 种 普遍 化 的 问题 可 能 不 适合 于 非 函 数 化 的 关系 。 例 如 ， 如 果 开 关 可 以 同时 安装 在 许 
多 位 置 上 ， 那 么 最 好 对 每 个 位 置 都 做 询问 。 

一 个 复杂 的 问题 是 关于 答案 的 词汇 。 用 户 不 清楚 知识 库 工 程 师 期 望 得 到 的 是 什么 词 
汇 。 有 两 个 方案 解决 这 个 问题 : 

。 系统 设计 师 提 供 一 个 菜单 条 目 ， 用 户 从 中 选择 最 适合 的 。 这 种 方法 在 条 目 数量 少 

或 条 目 可 以 以 较 小 的 层次 结构 排列 时 才 有 效 。 

。 系统 设计 师 提 供 一 个 较 大 的 能 够 预 估 所 有 可 能 的 答案 的 词典 。 当 用 户 给 出 一 个 答 
案 ， 答 案 就 被 映射 为 系统 所 期 望 的 内 部 形式 。 通 常 假 设 用 户 使 用 的 词汇 都 是 普通 
语言 或 缩写 形式 ， 因 此 用 户 不 希望 系统 理解 像 *giganormous”( 即 "very big”) 这 样 
的 词汇 。 

上 述 工作 属于 经 验 问题 。 有 关 如 何 设 计 计算 机 与 人 交互 的 问题 属于 人 机 交互 (human 

computer interaction, HCI) 领域 的 问题 。 


13.4.2 ”更 普遍 的 问题 


yes-or-no 问题 和 函数 化 关系 不 能 涵盖 查询 的 所 有 情况 。 可 以 在 询问 用 户 的 查询 中 加 
入 自由 变量 得 到 通用 的 查询 形式 。 

【 例 13-19] 对 于 子 目 标 plas X, f (2))， 可 以 询问 用 户 类 似 这 样 的 问题 : 

X AZ MATAR pla, X f(Z) AK? 


当然 应 该 提交 用 户 能 够 理解 的 问题 形式 。 
然后 期 望 用 户 对 X MZ 给 出 约束 ， 使 得 子 目 标 为 真 ， 或 者 回答 no， 表 示 不 存在 这 样 
WX AMZ 实例。 这 符合 系统 提问 的 查询 协议 。 a 


这 里 会 出 现 一 些 如 下 的 问题 ; 

。 对 于 系统 提示 的 新 实例 ， 用 户 应 该 给 出 所 有 值 为 真 的 实例 ， 还 是 一 次 给 出 一 个 实 
例 ?” 认 可 一 个 基于 知识 的 系统 的 主要 标准 是 它 的 合理 性 。 因 此 以 自然 的 、 合 乎 逻 
辑 的 方式 来 提问 是 非常 重要 的 。 出 于 这 个 原因 ， 当 需要 另 一 个 实例 时 最 好 给 出 提 
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示 。 通 过 这 种 方式 ， 系 统 能 够 在 考虑 下 一 个 个 体 之 前 对 个 体 的 深度 进行 探测 。 这 
种 方式 的 效果 取决 于 知识 库 的 结构 。 
© 何 时 不 问 问题 或 不 再 对 一 个 问题 提问 ? 例如 ， 对 于 问题 *X 取 何 值 可 使 p(X) 为 
真 ?” 如 果 用 户 已 经 给 出 回答 的 含义 为 耻 = 二 4(2Z)( 例 如,“ 对 于 Z 的 所 有 值 ， 
p(f(2)) 为 真 ")。 在 这 种 情况 下 ,不 应 该 再 问 用 户 p(f (5)) 是否 为 真 或 
pLf(h(W))) 是 否 为 真 ， 而 应 该 问 关于 p(a) 或 p(X) 是 否 为 真 ( 即 问 一 个 不 同 的 实 
例 )。 如 果 用 户 随 后 对 问题 “X 取 何 值 可 使 p(X) 为 真 ?” 的 回答 为 nao。 意思 是 对 这 
个 问题 没有 答案 ， 而 不 是 说 对 于 所 有 的 X，zPp(CX) 都 为 假 ( 因 为 系统 已 经 被 告知 
X= f(b E—T ABN A). 
一 般 的 规则 是 ， 不 应 该 对 已 经 做 出 正面 回答 的 问题 或 对 用 户 已 经 回答 no 的 问题 再 做 
更 具体 的 询问 。 
。 在 证 明 过 程 中 ， 系 统 遇 到 问题 是 应 该 立即 询问 ， 还 是 应 该 推迟 询问 直到 有 更 多 变 
量 的 值 被 确定 呢 ? 在 查询 中 ， 可 能 会 存在 一 些 目标 ,无论 用 户 给 出 任何 答案 ， 都 
将 无 法 达到 ， 此 时 最 好 直接 寻找 实现 这 些 目 标的 答案 而 不 是 询问 用 户 。 在 一 个 查 
询 中 也 存在 随 着 自由 变量 的 求解 ， 最 终 的 答案 将 随后 被 确定 的 情况 。 相 比 于 让 用 
户 列举 各 种 可 能 性 而 偶然 碰 到 答案 ， 可 能 等 待 自由 变量 被 求解 后 的 方式 会 更 好 些 。 
考虑 查询 “? p(X)Ag(X)”， 其 中 p(X) 是 可 询问 的 。 如 果 只 有 一 个 gq 的 实例 ， 如 g(CA) 
为 真 ， 那么 最 好 拖延 询问 p(X) 直 到 X 值 确定 为 &。 然 后 系统 直接 询问 p(k)， 而 不 是 询问 
用 户 枚 举 所 有 的 p， 直 到 问 到 p(k) 为 真 。 然 而 ， 如 果 gq(X) 的 实例 是 一 个 很 大 的 数据 库 ， 
而 只 有 很 少 的 X 值 使 得 p(X) 为 真 ， 那么 最 好 询问 p(X) 的 实例 ， 然 后 利用 p(X) 去 检查 数 
据 库 ， 而 不 是 对 数据 库 的 每 一 个 元 素 都 提出 yes-or-no 的 问题 。 直 接 询问 还 是 延迟 询问 ， 
哪 一 种 方式 更 好 取决 于 对 于 使 得 p(X) 为 真 的 个 体 数 目的 估计 ， 取决 于 对 于 使 得 q( 义 ) 为 真 
的 个 体 数 目的 估计 和 询问 用 户 的 相关 成 本 。 
上 述 实 际 的 问题 对 于 一 个 KB 系统 设计 一 个 友好 的 用 户 界面 是 非常 重要 的 。 


13.5 ”实现 基于 知识 的 系统 


对 于 一 个 Agent 来 说 ， 能 够 表示 自己 的 推理 是 非常 重要 的 。Agent 表示 自己 的 推理 被 
称 为 反射 (reflection) 。 明 确 地 表示 Agent 的 推理 使 Agent 能 够 更 加 灵活 地 推理 ， 以 便于 设 
计 师 可 以 为 应 用 设计 最 合适 的 语言 。 

本 节 着 重 介 绍 反射 的 用 途 之 一 ， 即 实现 为 特定 应 用 所 需 特 征 而 构建 的 新 语言 而 提供 的 
轻 量 级 工具 。 通 过 这 种 轻 量 级 工具 很 容易 实现 新 的 语言 和 其 他 工具 ， 并 且 保 证 语言 和 工具 
可 以 随 着 应 用 的 演变 而 演变 。 

语言 的 元 解释 器 (metar-interpreter) 是 用 同一 语言 书写 的 语言 解释 器 。 这 种 解释 顺 很 有 
用 ， 在 原型 上 的 修改 方便 具有 有 用 特征 的 新 语言 的 快速 构建 。 一 旦 一 种 语言 证 明了 它 的 效 
用 ， 这 种 语言 的 编译 器 就 会 被 开发 出 来 以 提高 效率 。 

在 另 一 种 语言 内 部 实现 一 种 新 语言 ， 实 现 的 语言 被 称 为 基 语 言 (base language)， 或 者 
称 为 对 象 语言 (object language), 已 经 被 实现 的 语言 称 为 元 语言 (metalanguage)。 在 基 语 
言 中 的 表达 式 属 于 基本 级 (base level) ， 在 元 语言 中 的 表达 式 属 于 元 级 (meta-level) 。 本 节 
首先 为 12 章 提 出 的 “限定 子 名 语言 ?定义 一 个 元 解释 器 ， 然 后 说 明 如 何 修改 或 扩展 基 语 言 ， 
以 及 如 何 通过 修改 元 解释 器 得 到 解释 和 调试 工具 。 
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13.5.1 基 语 言 和 元 语言 


我 们 需要 对 基本 级 表达 式 做 出 表示 ， 使 得 解释 器 可 以 通过 操纵 基本 级 表达 式 来 产生 答 
案 。 起 初 ， 基 语言 也 是 定义 子 句 的 语言。 在 前 文中 已 经 表述 过 ， 限 定子 句 语 言 是 由 术语 、 
原子 、 主 体 和 子 句 构成 。 

元 语言 是 指 基 语 言 的 语法 元 素 。 因 此 ， 元 级 符号 代表 基本 级 术语 、 原 子 、 主 体 和 子 
句 。 基 本 级 术语 表示 域 中 被 模拟 的 对 象 ， 并 且 基 本 级 的 谓词 表示 域 中 的 关系 。 

一 个 元 解释 器 在 为 一 个 全 新 的 语言 编写 解释 器 方面 的 优点 之 一 是 其 对 象 级 能 够 使 用 元 
级 结构 。 当 编写 一 个 逻辑 编程 元 解释 器 时 ， 需 要 对 如 何 表示 变量 做 出 选择 。 在 非 基 表示 
(non-ground representation) 中， 基本 级 术语 的 表示 与 元 语言 中 的 相同 ， 所 以 ， 特 别 的 ， 
基本 级 变量 可 表示 为 元 级 变量 。 这 是 相对 于 基础 表示 (ground representation) 而 言 的 ， 在 
基础 表示 中 ， 基 语言 变量 表示 为 元 语言 中 的 常量 。 非 基 表 示意 味 着 ， 元 级 统一 被 有 效 地 用 
于 基本 级 术语 的 统一 。 基 础 表示 可 以 实现 更 复杂 的 统一 的 模型 。 

【 例 13-20) 在 非 基 表示 中 ， 基本 级 术语 Joo(X，y 太 (2)，X) 将 被 表示 为 元 级 术 
i foo(X, JŒ), X). 

在 基础 表示 中 ， 基 本 级 术语 foo (XX，f(b)，X) 将 被 表示 为 foolvar(z), fb), 
aar(z))， 其 中 var 是 元 级 函数 符号 ， 代 表 给 定名 字 的 变量 作为 其 参数 。 本 

我 们 将 为 限定 子 句 生 成 非 基 表示 。 元 语言 必须 能 够 表示 所 有 的 基本 级 结构 。 

基本 级 变量 、 常 量 和 函数 符号 都 可 以 表示 为 相应 的 元 级 变量 、 常 量 和 函数 符号 。 因 
此 ， 所 有 基本 级 中 的 术语 可 表示 为 元 级 中 相同 的 术语 。 基 本 级 谓词 符号 p 由 相应 的 元 级 函 
数 符号 表示。 所 以 ， 基 本 级 原子 pC. rs RRR ATCRAIA PCs + tk) 

基本 级 主体 也 表示 为 元 级 术语 。 如 果 e 和 es 是 元 级 术语 ,代表 基 本 级 原子 或 主体 ， 
令 元 级 术语 oand(e! ，es) 代 表 ea Me 的 基本 级 合 取 。 因 此 ，oand 是 一 个 元 函数 符号 ， 表 
示 基 本 级 合 取 。 

基本 级 子 句 可 以 表示 为 元 级 原子 。 基 本 级 规则 “hh if 如 表示 为 元 级 原子 clauselh, b'), 
其 中 ,，b' 表 示 b 的 主体 。 基 本 级 原子 子 句 a 被 表示 为 元 级 原子 clause (a，true)， 其 中 元 级 
常量 true 表示 基本 级 空 主体 。 

【 例 13-21】 例 12-11 的 基本 级 子 句 

connected_to(1,, We) 

éonnactéd tocan s w,)<upls,) 

lit(L)<light(L) A ok(L) A liveCL) 
可 以 表示 为 元 级 事实 : 

clause(connected_to(1, To ) ,true) 


clause(connected_to( wy sw ) ,upCs2)) 

clause(lit(L) ,oand dight(L) ,oand(ok(L) ,live(L)))) < 

yT PEAR EAA RE. HA PR ES SAR oand, W oand (ei ，es) 可 写 为 
e1&e: 。 连 接 符 号 “&&” 是 元 语言 的 中 级 函数 符号 ， 是 一 种 基 语 言 的 原子 之 间 的 算 子 。 这 只 
是 oand 表示 的 语法 变化 。 这 种 中 缀 运算 符 的 使 用 使 得 基本 级 公式 更 容易 阅读 。 

使 用 h<=b (RAF clause Ch, b), EPERERA S. Aie, ERTA h 
a, 人”… 和 人 ao 表示 为 元 级 原子 : 

h=a, & ++ Ga, 
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如 果 相 应 的 基本 级 子 句 是 基本 级 知识 库 的 一 部 分 ， 那么 上 述 的 元 级 原子 为 真 。 在 元 级 
中 ， 这 个 原子 能 够 像 任 何其 他 原子 一 样 使 用 。 
581] 图 13-8 总 结 了 如 何 使 用 元 语言 表示 基 语 言 。 


语法 结构 的 元 级 表示 





p 


13-8 ” 基 语 言 的 非 基 表示 
【 例 13-22〗 采用 中 缀 符号 表示 法 将 例 13-21 中 的 基本 级 子 句 表示 为 元 级 事实 ; 


connected_to(l, sw ) true 

connected_to(wy sw ) upl ss ) 

lit(L) =light(L) &ok(L) &.livelL) 

与 例 13-21 中 的 表示 方法 相 比 较 ， 上 述 表 示 方 法 的 可 读 性 更 好 ， 但 对 计算 机 而 言 ， 它 
们 本 质 上 是 相同 的 。 < 

TRARA G e MICRA AF SH" AE AE MAN TCR ES BY A FE fo th 
符号 。 中 缀 符号 仅仅 是 为 了 增强 易 读 性 。 


13. 5.2 普通 的 元 解释 器 


本 节 介 绍 一 个 非常 简单 的 利用 限定 子 句 语言 编写 的 普通 的 元 解释 器 (vanilla meta-inter- 
preter) ， 用 于 解释 限定 子 名 语言 。 后 续 的 章节 将 增强 这 种 元 解释 器 以 提供 额外 的 语言 构建 和 
知识 工程 工具 。 在 考虑 后 面 提 及 的 更 复杂 的 元 解释 器 之 前 ， 首 先 来 理解 一 个 简单 的 例子 。 

图 13-9 定义 了 限定 子 句 语言 的 元 解释 器 。 这 是 一 种 公理 化 的 关系 proves 当 基 本 级 主 
体 G 是 基本 级 子 句 的 一 个 逻辑 结果 时 ，prove(G) 为 真 。 


% 当 基 级 主体 G 是 使 用 谓词 符号 “<=" 定 义 的 基 级 子 句 的 逐 辑 结果 ，prove(G) 为 真 
prove(true). 
prow ((A&B))— 
prove(A) 人 


prove(B). 
prow (H)< 

(H=B) A 

prove(B). 





图 13-9 普通 的 限定 子 句 元 解释 器 


正如 公理 化 任何 其 他 关系 一 样 ， 子 句 在 预期 的 解释 中 取 真 值 ， 确 保 子 句 覆 盖 了 所 有 的 
情况 ， 并 且 通 过 递归 做 了 一 些 简化 。 这 种 元 解释 器 本 质 上 涵盖 了 在 子 名 或 查询 的 主体 中 的 
每 种 可 能 的 情况 ， 并 且 给 出 如 何 解决 每 种 情况 的 方案 。 主 体 可 以 是 空 的 ， 或 是 一 种 合 取 ， 
或 是 一 个 原子 。 很 容易 证 明 空 的 基本 级 主体 为 真 。 可 以 通过 证 明 A MB 为 真 来 证 明基 本 
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RAHAB 为 真 。 为 了 证 明 原 子 瓦 为 真 ， 首 先 找到 一 个 H 的 基本 级 子 句 作为 头 部 ， 并 


且 证 明 该 子 句 的 主体 为 真 。 

【 例 13-23) 考虑 图 13-10 中 依据 例 12-11 改 
编 的 基本 级 知识 库 的 元 级 表示 。 该 知识 库 由 元 级 
原子 构成 ， 有 相同 的 谓词 符号 ， 即 “< 二”。 下 面 介 
绍 由 普通 的 元 解释 器 和 生子 句 组 成 的 知识 库 是 如 
何 自 项 向 下 工作 的 。 

使 用 下 面 的 查询 询问 基本 级 目标 Live(ws) : 

?provel live(res )) 

prove 的 第 三 个 子 句 是 唯一 符合 此 查询 的 子 
句 。 接 着 寻找 形式 为 ioe(wus)< B 的 子 句 ， 得 到 

live(W)<connected_to(W, W,)&-live(W,) 

W 5 w; 一 致 ， 召 5 connected _to(w;, Wi) 
&live(W1) 一 致 ， 接 下 来 尝试 证 明 

prove((connected_to(w;, W,)&-live(W,))) 

prove 的 第 二 个 子 句 可 以 证 明 上 式 ， 然 后 证 明 

prove(connected_to(w; ,Wi)) 

使 用 prove 的 第 三 个 子 句 可 以 证 明 上 式 。 寻 找 
首部 与 下 式 首部 一 致 的 子 句 

connected_to(ws ,;W,)<=B 

找到 connected _to(w;, outside) = true, $4 
W, 5 outside Mi, EFA prove 的 第 一 个 子 句 可 以 
推导 出 prove(true) 。 

合 取 的 后 半 部 分 prove(live(W,)), HRW, = 
outside, A H AWEH prove(true)。 < 


13.5.3 扩展 基 语言 
可 以 通过 修改 元 解释 器 来 改变 基 语 言 。 添 加 




























lL <= 
light(L) & 
ok(L) & 
live(L). 

live(W) <= 


live(W,). 


light(1,)<true. 
light(1,)=true. 
down( s,)<=true. 
upis) true, 
up(s,)<<true. 
connected_to(l, + 


connected 


connected_to(l:, 


ok( X) true. 


connected_to(W, Wi)& 


live( outside) true. 


connected_to( wy + 
connected _to( wy» 
tolw, 
connected _to lw» 


connected _to( t , 
connected_to( pi» 
connected_to(ws + 
connected_to( pz, 
connected_toCwe + 
connected_toCws , 
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wo ) true. 

w) up (s,) & ok ls). 
wr) =down(s,) & ok(s,). 
w;) up (s,) & ok lsi). 
w,)<=down(s,)& ok(s,). 
wi) true. 
w,)<=up(s,)& ok ls). 
wy) Htrue. 

ws ) S0k lch). 

w ) true. 

w; )<ok(cb;). 


outside) true. 





13-10 室内 布线 的 基本 级 知识 库 


子 句 可 以 增加 语言 的 证 明 能 力 。 向 元 解释 器 的 规则 中 增加 条 件 可 以 限制 语言 的 证 明 能 力 。 

在 所 有 的 实用 系统 中 ， 不 是 每 一 个 谓词 都 可 以 用 子 句 定义 的 。 例 如 ， 在 当前 可 以 做 快 
速算 术 运 算 的 机 器 上 实现 计算 公理 化 是 不 切实 际 的 。 最 好 的 方法 是 直接 调用 底层 系统 ， 而 
不 是 公理 化 谓词 。 假设 谓词 call(G) AW ABER G WA, call (p(X)) 与 p(X) 是 一 致 的 。 
由 于 限定 子 句 语言 不 允许 使 用 自由 变量 作为 原子 ， 所 以 需要 加 上 谓词 call 

内 置 的 程序 可 以 通过 定义 元 级 关系 built_in(X) 在 基本 级 上 被 计算 ,如果 X 的 所 有 实 
例 被 直接 计算 ， 那么 built_in(X) 为 真 ， 其 中 X 必须 是 表示 基本 级 原子 的 元 级 变量 。 不 要 
假设 built_in 可 以 作为 内 置 关系 被 提供 。built_in 可 以 像 任何 其 他 关系 一 样 被 公理 化 。 

基 语 言 被 扩展 后 可 以 用 于 在 子 句 的 主体 中 的 析 取 (或 者 包含 )。 

当 A 在 解释 了 中 为 真 , 或 当 B 在 解释 I 中 为 真 (或 者 A 和 B 都 在 解释 I 中 为 真 ) 时 ， 


# RM Cdisjunction) A V BAH, 


如 果 人 允许 在 基本 级 的 主体 中 进行 析 取 ， 则 不 需要 在 元 语言 中 析 取 。 


【 例 13-24】 基本 级 规则 的 一 个 例子 


can_seeeyes_open®.(lit(l,) V lit(,)) 
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表示 如 果 eye_open 为 真 并 且 lit, RH lit, AL RMB). 那么 can_see WK. < 

图 13-11 说 明 元 解释 器 允许 对 内 置 程序 直接 求 值 ， 并 且 人 允许 对 规则 主体 析 取 。 实 现 上 
述 功能 需要 一 个 内 置 的 断言 库 ， 并 且 假 设 cal1(G) 是 可 以 在 元 级 上 证 明 G 的 三 种 方式 。 

对 于 这 种 解释 器 ， 元 级 和 基本 级 是 不 同 的 语言 。 基 本 级 允许 在 主体 内 析 取 。 元 级 不 需 
要 为 基 语言 提供 析 取 功能 。 元 级 需要 一 种 方式 来 解释 caLL(G) ， 而 基本 级 则 不 需要 。 然 而 ， 
可 以 在 基 语言 中 添加 下 面 的 元 级 子 句 来 解释 命令 call(G) : 

prove(call(G) )— 

prove(G) 





%% 如 果 基 级 主体 6G 是 基 级 知识 库 的 逻辑 结果 ， 则 prove(G) Hy 
prove(true). 
prow ((A&B))— 
provet A) A 
prove(B). 
prove (CAV B))<— 
prove(A). 
prove CCA V B)) <- 
prove(B). 
prow (H)<— 
built inCH) A 
eall(H). 
prowl H) 
(H=B) A 
prove(B). 





















图 13-11 使 用 内 置 调用 call 和 析 取 的 元 解释 器 示例 
13.5.4 深度 有 限 搜索 


上 一 节 展 示 了 如 何 添加 额外 的 元 级 子 句 来 扩展 基 语 言 。 本 节 说 明 如 何 向 元 级 子 句 添加 
额外 的 条 件 来 缩减 基 语 言 的 范围 。 

有 用 的 元 解释 器 是 一 种 可 以 实现 深度 有 限 搜索 的 解释 器 。 它 可 用 于 查找 简短 的 证 明 或 者 可 

585] ”以 作为 兴 代 深度 搜索 的 一 部 分 ， 在 每 个 阶段 执行 增加 限定 的 重复 的 深度 限定 、 深 度 优先 搜索 。 

13-12 给 出 了 一 个 公理 化 的 关系 bprove(G, D), MRG 可 以 利用 深度 小 于 或 等 于 
IER MR D 的 证 明 树 得 到 证 明 ， 那么 关系 bprove(G，D) 为 真 。 此 图 使 用 Prolog H PAIR 
词 符号 is， 其 中 如 果 V 是 表达 式 EE 的 数值 ， 则 “V is E” 为 真 ， 在 这 个 表达 式 中 “一 ”是 中 级 
减法 函数 符号 。 因 此 ， 如 果 Di 比 数值 DD 小 1， 则 “D; is D 一 1” 为 真 。 


AWMF G 可 以 被 一 棵 深度 小 于 或 等 于 数值 也 的 证 明 树 证 明 ， 那么 bprove(G, DAW 
bprove(true, D). 
bprove((A & B), D)=— 
bprove(A, D) 人 
bprove(B, D). 


bprove(H, D)=— 
D0A 
D, is D-1A 
CHEB) A 
bprove(B, D,). 





图 13-12 元 解释 器 实现 深度 有 限 搜索 
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如 果 在 查询 中 吃 是 固定 值 ， 元 解释 咒 就 不 会 陷入 死 循 环 , 但 是 此 元 解释 器 不 能 证 明 其 
深度 大 于 D。 因 此 将 D 设 为 固定 值 的 这 个 元 解释 器 是 不 完整 的 。 然 而 MRD 足够 大 ， 
对 于 prove 元 解释 器 的 每 一 个 证 明 都 可 以 由 这 个 元 解释 器 找到 。 和 迭代 深度 搜索 的 实质 是 利 
用 执行 重复 的 深度 有 限 搜索 ， 每 次 增加 深度 的 限定 来 实现 的 。 有 时 深度 有 限 元 解释 器 可 以 
找到 prove 不 能 找到 的 证 明 。 在 prove 元 解释 器 探求 到 所 有 证 明之 前 就 陷入 了 无 穷 循 环 时 
会 发 生 这 种 情况 。 

这 不 是 构建 有 界 元 解释 器 唯一 的 方式 。 深 度 有 限 元 解释 器 还 可 以 通过 将 其 他 指标 替代 
深度 。 例 如 ， 使 用 树 的 节点 数 蔡 代 树 的 最 大 深度 。 还 可 以 通过 改变 第 二 规则 使 合 取 产生 成 
本 (参见 习题 13. 7) 。 


13.5.5 元 解释 器 构建 证 明 树 


为 了 实现 5. 3. 3 节 中 的 how 命令 ,解释 器 通过 证 明 树 的 表示 方式 来 导出 答案 。 元 解释 
器 可 以 被 扩展 来 建立 一 个 证 明 树 。 图 13-13 给 出 一 个 实现 内 置 谓词 并 建立 证 明 树 的 元 解释 
器 。 通 过 遍历 这 棵 证 明 树 可 以 实现 “how” 询 问 。 


% 当 基 级 主体 G 是 基 级 知识 库 的 逻辑 结果 ， 并 且 表示 相应 证 明 过 程 的 证 明 树 ， 则 hprove(G，T) 为 真 
hprove(true, true). 
hprove((A & B), (L & R))=— 
hprove(A, L) A 
hprove(B, R). 
hprove(H, if(H, built_in))=- 


built in(H)A 
calil H). 

hprove(H, if(H, T))<— 
(H=B) A 
hprove(B, T). 





13-13 元 解释 器 建立 一 个 证 明 树 的 过 程 


【 例 13-25) 考虑 例 12-11 中 接线 域 的 基本 级 子 句 和 基本 级 查询 ?Lii(L)”。 元 查询 “? 
hprove(lit(L)，T)” 的 答案 是 L 二 1 ， 其 证 明 树 TF: 
T =if (littl), 
if Clight(z,),true) &. 
if (ok(ls) ,true) &. 
if Giw (lh), 
if (connected tollz wi) true) &. 
if CliveCuy,), 
if Cconnected_to(w, st), 
if (up(s;).true)) & 
if CliveCws), 
if (connected_to(uy sws), 
if Cok(ch,) ,true)) & 
if Clive(ws)s 
if (connected_to(w; soutside) ,true) &- 
if (liveCoutside) ,true)))))). 
尽管 这 棵 数 如 果 被 适当 地 格式 化 后 能 够 被 理解 ; 但 仍然 对 用 户 有 技术 上 的 要 求 ， 才 能 
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理解 这 棵 数 。5. 3. 3 节 中 的 “how” 询 问 遍 历 了 这 棵 树 。 用 户 只 需要 看 到 子 句 ， 而 不 需要 看 
这 棵 树 。 参 见习 题 13. 12。 4 


13.5.6 可 询问 用 户 的 元 解释 器 


图 13-14 给 出 一 个 可 询问 用 户 的 解释 器 的 伪 代 码 。 这 个 解释 器 假设 有 外 部 数据 库 记 录 
查询 的 答案 ， 当 查询 被 回答 时 更 新 数据 库 。 元 级 形式 answered(H, Ans) RMI. WR 
用 户 询问 互 ， 用 户 给 出 的 回答 Ans 或 为 yes 或 为 ma， 那么 asked(H, Ans)\#6HH. unan- 
swered(H, Ans) ERE FLEA Ans, answered(H, Ans) Ex PRCA. EK 
第 四 子 句 的 字面 意思 是 当 答案 为 yes 时 ， 该 子 名 生效， 但 无 论 用 户 回 答 yes 还 是 no 答案 都 
会 被 记录 下 来 。 

图 13-15 给 出 了 可 以 用 来 查找 why 问题 的 原始 规则 列表 的 元 解释 器 。wprove 的 第 二 
个 参数 是 在 证 明 树 的 当前 部 分 中 每 个 规则 的 头 部 形 如 ( 互 二 B) 的 子 句 列表 。 这 个 元 解释 器 
可 以 与 图 13-14 中 做 询问 的 元 解释 器 相 结 合 。 当 用 户 使 用 why 回答 问题 时 ， 上 述 子 句 列表 
可 提供 产生 当前 子 目标 的 规则 集 。5. 3. 3 节 中 的 why 查询 可 以 通过 遍历 子 句 列表 和 向 上 所 


历 证 明 树 ， 一 次 一 步 来 实现 。 


% 当 基 级 主体 G 是 林 级 知识 库 的 逻辑 结果 ， 并 且 用 户 已 经 回答 yes/no 查询 ， 则 aprove(G) 为 真 
aprove(true), 
aprove((A & B))— 
aprove(A) 人 
aprove(B). 
aprove( H)< 
askable( H) 人 
answered(H, yes). 
a prove ( H)<— 
askableCH) A 
unanswered (H) 人 
ask(H, Ans) A 
record(answered(H, Ans)) 人 
Ans= yes. 
aprove( H)< 
CHEB) A 
aprove(B). 











图 13-14 可 询问 用 户 的 元 解释 器 的 人 擅 代 码 


RERE G 是 基 级 知识 库 的 遇 辑 结果 ， 并 且 A 是 G 在 原始 查询 证 明 树 中 的 初始 规则 列表 ， 
i) wprove(G, ADAH 
wprove(true, Anc). 
wprove((A & B), Anc)< 
wprove(A, Anc) A 
wprove(B, Anc). 
wprove(H, Anc)+- 
(HEB) A 


wprove(B, [(H<=B) | Anc]). 





13-15 元 解释 器 收集 why 问题 的 原始 规则 
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13.5.7 推迟 目标 


推迟 Cdelay) 目标 是 元 解释 器 的 最 有 用 的 功能 之 一 。 元 解释 器 将 某 些 目标 收集 到 一 个 
列表 中 ， 而 不 是 去 证 明 它 们 。 在 证 明 的 最 后 阶段 ， 系 统 导 出 结论 ， 如 果 推 迟 的 目标 都 取 真 
值 ， 则 结果 为 真 。 

收集 可 推迟 目标 的 原因 如 下 : 

。 为 了 实现 基于 一 致 性 的 诊断 和 最 佳 推导 ; 

。 等 待 后 续 调用 给 出 变量 的 值 而 推迟 带 有 变量 的 子 目标 ; 

。 为 了 省 去 创造 新 规则 的 中 间 步 又 一 一 例如 ， 如 果 用 户 或 数据 库 询问 推迟 的 目标 。 

这 被 称 为 部 分 评价 (partial evaluation)， 用 于 基于 解释 的 学 习 过 程 ， 以 省 去 证 明 的 
中 间 步 骤 。 

13-16 给 出 了 一 个 提供 推迟 的 元 解释 器 。 使 用 元 级 事实 delay(G) 表 示 可 以 推迟 基本 
级 原子 G。 可 推迟 的 原子 能 够 被 收集 到 一 个 没有 被 证 明 的 列表 中 。 

假设 能 够 证 明 dprove(G，[]，D) 。 令 D' 表 示 可 延迟 目标 D 的 列表 中 的 基本 级 原子 
WAR. WW G<-D' 是 上 述 子 句 的 一 个 逻辑 结果 ， 并 且 对 于 所 有 的 dED, delay DAR. 


中 如 果 D, 出 现在 D, HRB, 并且 G 是 DD, 中 可 延迟 的 原子 的 合 取 ， 则 4provetG，D。，D1) 为 真 
dprove(true, D, D}. 
dprave((A & B), Di, D;)<- 
dprove(A, Dı, DƏ A 
dprove(B, D», Ds). 


dprove(G, D, [G|D)— 
delay(G). 

dprove(H, D,, D.)- 
(HEB) A 
dprove(B, D,, D,). 





图 13-16 ”收集 延迟 目标 的 元 解释 器 


LBJ 13-26) 作为 基于 一 致 性 的 诊断 推迟 的 例子 ， 考 虑 如 图 13-10 所 示 的 无 ok 规则 的 
基本 级 知识 库 。 假 设 ok(G) 是 可 推迟 的 ， 将 其 表示 为 如 下 元 级 事实 : 590 

delay(ok(G)) 

查询 

ask dproveClive( pı), []; D) 
的 答案 为 D = [ok(ch)]。 如 果 ok(ch WH, 那么 live(p AH. 

查询 

ask dprove((lit(l,) & live(p1)),[L],D) 
的 答案 为 D = [ok(cb,), ok (ch), ok(s3) ]。 

如 果 ch, 和 ss 属于 ok, MAL 是 亮 的 并 且 pi 是 活动 的 。 

TER. ok(ch ) 在 列表 中 出 现 两 次 。dprove 不 检查 列表 中 是 否 存在 多 个 可 推迟 的 实例 ， 
一 个 dprove 的 成 熟 版 本 不 会 增加 重复 的 推迟 。 参 见习 题 13. 8。 < 


13.6 本 章 小 结 


。“ 个 体 -特征 - 值 ”三 元 组 形式 便于 灵活 通用 地 表示 关系 。 
。 本 体 是 知识 共享 的 基础 。 
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， OWL 本 体 由 个 体 、 类 和 属性 构建 。 类 是 一 个 实际 和 潜在 个 体 的 集合 。 属 性 将 数据 类 型 或 个 体 联 
系 超 来 。 

。 根据 语义 内 容 进行 解释 推理 和 调试 知识 的 能 力 能 够 改善 基于 知识 的 系统 的 可 用 性 。 

， 元 解释 器 可 以 实现 一 个 可 定制 的 适合 表示 语言 需要 的 轻 量 级 知识 库 系统 。 


13.7 参考 文献 及 进一步 阅读 


Brachman 和 Levesque [2004] 概述 了 如 何 表 示 知 识 的 方法 。Davis [1990] 介 绍 了 常识 性 推理 中 丰富 的 
知识 表示 问题 。Brachman 和 Levesque [1985] 发 表 了 很 多 经 典 的 知识 表示 的 论文 。Woods [2007] 给 出 有 
关 语 义 网 的 最 新 概述 。 

如 果 希 望 从 哲学 和 计算 机 的 角度 了 解 本 体 ， 可 参阅 Smith [2003]。 语 义 Web 的 概述 参阅 Antoniou 和 
Van Harmelen [2008]; Berners-Lee, Hendler 和 Lassila [2001]; Hendler, Berners-Lee 和 Miller [2002]. 
本 章 的 OWL 描述 基于 OWL-2; 有 关 OWL-2 的 描述 可 以 参阅 Hitler, Krotzsch, Patel-Schneider 和 
Rudolph [2009]; Motik, Patel-Schneider 和 Parsia [2009b]; Motik, Patel-Schneider 和 Grau[ 2009a]。 
Turtle 是 Beckett 和 Berners-Lee [2008] 提 出 的 一 种 语言 。 

Grenon 和 Smith [2004] 描 述 了 BFO。 其 他 顶层 本 体 ， 包括 DOLCE [Gangemi, Guarino, Masolo, 
Oltramari, 2003], SUMO [ Niles, Pease, 2001], Cyc [ Panton, Matuszek, Lenat, Schneider, 
Witbrock, Siegel, Shepard, 2006]. Noy 和 Hafner [1997] 比 较 了 不 同 的 顶层 本 体 。 

Bowen [1985] 和 Kowalski [1979] 讨 论 了 元 解释 器 逻辑 。Abramson 和 Rogers [1989] 总 结 了 现 有 的 元 
解释 器 。 


13.8 习题 


13. 1 本 练习 的 目的 是 探讨 相同 域 的 多 种 表示 。 

在 一 个 3X3 方 格 上 的 tic-tac-toe 游戏 中 ， 两 名 玩家 和 OO， 交替 地 在 空白 位 置 留 下 标记 。 当 
HA XX 放置 标志 时 ， 如 果 他 可 以 将 三 个 和 标志 在 同一 条 直线 上 ,那么 X 获胜 。 例如， 在 如 下 状 
态 中 ， 在 左 侧 中 间 的 空位 置 上 留 下 义 标 记 ， X EURE, 

X0 0O 
x 
X O 

Fred, Jane, Harold 和 Jennifer 每 个 人 编写 一 个 程序 使 得 在 已 知 一 个 游戏 的 状态 下 ，X 在 下 
一 步 可 获胜 。 他 们 每 个 人 要 决定 游戏 状态 的 不 同 表 示 ， 比 较 他 们 的 表示 方法 。 

Fred 使 用 一 个 有 三 行 的 列表 表示 此 游戏 的 状态 ， 列 表 的 每 行 都 包含 三 个 元 素 ， 这 三 个 元 素 分 
别 是 x、o 或 5( 表 示 空 白 )。Fred 用 如 下 的 列表 表示 上 面 的 状态 : 

[L2z,0,0],[b,x,6],[2.6,0]] 

Jane 使 用 两 个 数字 ， 即 用 横 纵 坐标 描述 每 个 点 的 位 置 。 例 如 ， 将 左上 角 的 和 的 位 置 表示 为 
pos(1, 3), ZE PAAR X WAL pos], 1), FF. Jane 将 游戏 的 状态 表示 为 tti(XPs，OPs)， 这 
里 XPs 是 X 的 位 置 ， OPs 是 O 的 位 置 。 因 此 ，Jane 将 上述 状态 表示 为 : 
tttC(Lpos(1,3), pos(2,2) ,pos(1,1)],L pos(2;53) ,pos(3,3), pos(3,1)]) 

Harold 和 Jennifer 都 意识 到 ，tic-tac-toe 游戏 的 位 置 可 以 用 魔方 来 表示 : 


6 I 7 2 
1 9 
8} 3] 4 


将 游戏 转化 为 一 个 两 人 轮流 选择 一 个 数字 的 游戏 。 同 一 个 数字 不 可 以 被 选择 两 次 ， 首 先 选择 
出 总 和 为 15 的 三 个 数字 的 玩家 获胜 。 
Harold 将 游戏 状态 表示 为 由 九 个 元 素 组 成 的 列表 ， 其 中 每 个 元 之 是 z、 od, 这 取决 于 魔方 
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对 应 的 位 置 是 由 关 控 制 ， 还 是 由 O 控 制 , 或 是 空白 的 。 因 此 ，Harold 使 用 下 面 的 列表 表示 上 面 的 

游戏 状态 - 
[b505bs052%52%105250] 
Jennifer 将 游戏 表示 为 一 个 由 和 和 O 选择 的 数字 列表 对 。 她 将 以 上 游戏 表示 为 : 
magic({6,5.8],(7,2,4]) 

(a) 基于 上 述 四 种 表示 方法 中 的 每 一 种 ， 写 一 个 关系 来 决定 X BAKE, Hin z_won_fred 
(State)， 表 示 基 于 Fred 的 方法 ,在 状态 State LX 赢 得 了 比赛 (类 似 地 写 出 其 他 三 种 表 
示 方 法 )。 

(b) 哪 种 表示 更 容易 使 用 ? 解释 为 什么 。 

Co) 哪 种 表示 可 以 更 有 效 地 获胜 ? 

(d) 如 果 某 玩家 获胜 ， 哪 种 表示 可 以 以 最 简单 的 算法 来 确保 玩家 不 会 在 下 一 步 失败 ? 

(e) 你 认为 娜 种 表示 最 好 ? 解释 为 什么 ， 提 出 一 种 更 好 的 表示 。 

Sam 提出 任何 ?元 关系 PCXI Xo X ，…，X,) 可 以 表示 为 n 一 1 个 二 元 关系 ， 即 

Py CK Xs) 

Pz (Xp 5 Xx) 

Py Xx a) 


Pia (Xn-1 + Xn) 
向 Sam 解释 这 种 方法 的 缺陷 。 如 果 Sam 这 样 表 示 ， 会 遇 到 和 什么 问题 ? 
为 整理 你 桌子 的 机 器 人 生成 一 个 本 体 ， 表 示 经 常 氛 放 在 你 办 公 桌 上 的 物品 。 考 虑 以 下 问题 (a) 机 
器 人 能 感知 对 象 ，(b) 应 该 能 够 区 分 任务 。 
使 用 OWL 写 出 海滨 度假 村 的 定义 。“ 海 滨 度 假 村 "是 一 个 靠近 海 或 者 湖 的 ， 可 以 提供 游 瀛 、 住 宿 
和 饮食 的 地 方 。 
豪华 饭店 有 多 个 房间 可 供 租 住 ， 每 个 房间 都 很 舒适 并 可 以 看 风景 ， 并 且 至 少 有 一 间 矢 厅 可 以 同时 
为 素食 者 和 肉食 者 提供 饮食 服务 。 
(a) 使 用 OWL 定义 豪华 饭店 ， 做 合理 的 假设 ， 规 范 是 模糊 的 。 
(b) 再 提出 豪华 饭店 的 三 个 其 他 属性 ， 并 对 每 个 属性 分 别 给 出 自然 语言 定义 和 OWTI 的 描述 。 
用 BFO 对 下 述 子 句 分 类 : 
(a) 你 的 皮肤 
(b) 前 面 句 子 结束 处 的 句号 
(e) 一 个 孩子 在 假期 前 的 兴奋 
Cd) 假期 回 家 的 旅行 
Ce) 计算 机 程序 
(f) BR 
(g) 一 个 电话 铃声 
h) 你 桌 上 的 灰尘 
O 打扫 你 办 公 室 的 任务 
O 某 人 是 否 得 流感 的 诊断 
在 上 述 经 验 的 基础 上 ， 提 出 并 证 明 一 种 BFO 的 修改 方案 ， 考 虑 在 BFO 中 如 何 区 分 没有 著 盖 
或 非 独 占 的 情况 。 
修改 图 13-12 的 深度 有 限 元 解释 器 ， 使 得 ; 
Ca) 界限 是 证 明 的 总 长 度 ， 这 里 长 度 为 出 现在 证 明 中 的 基本 级 原子 实例 总 数 。 
(b) 不 同 的 基本 级 原子 在 界限 上 的 成 本 是 不 同 的 。 例 如 ， 大 多 数 原 子 是 零 成 本 ， 一 些 原 子 的 成 本 
为 正 值 。 
讨论 为 什么 上 述 情 况 比 使 用 树 的 深度 更 好 或 更 坏 ? 
当 给 定 一 个 正 的 边界 值 ， 在 什么 条 件 下 会 保证 证 明 过 程 不 会 陷 人 死 循环 ? 
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13.8 图 13-16 的 程序 允许 复制 推迟 的 目标 。 写 一 个 dprove 版 本 ， 该 版 本 以 最 简 的 形式 返回 推迟 目标 的 


13. 
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最 小 集合 。 
写 一 个 可 以 寻求 多 种 信息 源 的 元 解释 器 。 假 设 每 个 信息 源 由 一 个 通用 资源 标识 符 (URD) 识 别 。 假 
定 存在 如 下 谓词 : 
。 如 果 由 URI 表示 的 资源 能 够 给 出 与 问题 Q 一 致 的 答案 ， 则 can_answer(Q, URDAK. 
*。 如 果 尺 是 URI 的 某 种 可 靠 性 的 数值 度量 ， 则 reliadility(URI, DHA. 假设 R 的 范围 是 
[一 100，100]， 其 中 数值 越 高 ， 意 味 着 越 可 靠 。 
。 疝 URI 代表 的 信息 源 询问 一 个 问题 Q， 其 给 出 的 Answer Æ {yess no, unknown} 三 者 之 一 ， 则 
askSite( URI, Q, Answer) 4H. 
写 一 个 可 以 利用 多 种 信息 源 并 返回 可 靠 性 答案 的 元 解释 器 ， 答 案 的 可 靠 性 是 该 信息 来 源 使 用 
可 靠 性 的 最 低 值 。 当 没有 外 部 来 源 时 ， 必 须 有 一 些 约定 (例如 ， 可靠 性 取 200)。 只 可 以 问 信息 源 
可 以 回答 的 已 经 记录 的 问题 。 
写 一 个 可 以 询问 用 户 yes-or-no 问题 的 元 解释 器 ， 要 求 该 元 解释 器 不 问 已 知 答案 的 问题 。 
扩展 可 询问 用 户 的 元 解释 器 。 解 释 谓 词 是 函数 化 的 并 可 以 做 出 相应 的 反应 。 
元 解释 器 构建 了 图 13-13 中 的 证 明 树 ， 写 一 个 程序 融合 该 元 解释 器 产生 的 树 ， 使 用 how 问题 遍历 
此 树 。 
写 一 个 支持 how 和 why 查询 的 元 解释 器 。 允 许 在 why 查询 后 增加 how 查询 。 解 释 这 个 程序 如 何 
起 作用 。 
写 一 个 支持 迭代 深度 搜索 的 限定 子 句 的 元 解释 器 。 要 求 该 元 解释 器 与 深度 优先 搜索 算法 返回 的 查 
询 结果 一 致 。 
建立 一 个 选 代 深度 回溯 推理 系统 ， 找 到 最 小 的 一 致 性 的 可 假设 集合 来 蕴含 一 个 目标 。 可 以 参考 
图 13-12 所 示 的 深度 有 限 元 解释 器 和 图 13-16 所 示 的 推迟 元 解释 器 。 深 度 范 围 应 根据 证 明 中 使 用 
的 假设 数 来 确定 。 假 设 可 假设 集 都 是 研究 的 范围 。 
分 为 两 部 分 完成 : 
(a) 基于 先 代 加 深 可 假设 数 的 方法 找到 蕴含 某 个 g 的 最 小 可 假设 集 。 当 g 为 假 时 ， 程 序 会 找到 最 
小 的 冲突 。 
(b) 根据 (a)， 通 过 交叉 发 现 冲 突 ， 找 到 g 的 最 小 解释 ,得 到 蕴含 g 的 最 小 可 假设 集 。 
为 参数 化 的 逻辑 程序 写 一 个 元 解释 器 。 这 些 逻 辑 程序 能 够 在 算术 表达 式 中 使 用 常数 ， 常 数值 作为 
元 解释 器 的 输入 部 分 。 
假设 环境 为 ve!CParm，Vaz) 的 术语 列表 ， 其 中 Val 的 值 与 参数 Parm HK. RAMA PH 
个 参数 在 环境 中 只 出 现 一 次 。 例 如 [val(a, 7), val(b, 5)], 
在 AILog 中 ， 可 以 使 用 “< 二 ”作为 基本 级 蕴含 ， 使 用 “&" 作 为 基本 级 合 取 。AlLog H< E 
义 为 一 个 中 缀 运算 符 ，nwumber 是 一 个 内 置 谓词 。 
(a) 如 果 参 数 Parm 在 环境 Env 中 的 值 为 Val. Bis] lookup(Parm, Val, Env) HE. 
(b) 如 果 参 数 化 的 算术 表达 式 Exp 在 Env 中 值 为 Val， 谓词 eval(Exp, Val, Env) HK. RIER 
可 以 是 如 下 之 一 : 
。 JGR WCE, + E), (E + EE)，(Ei/E;)，(Ei 一 E;)， 其 中 E 和 EE 为 参数 化 的 算术 表达 式 ; 
ed io 
。 一 个 参数 。 
假设 运算 符 使 用 它们 通常 的 含义 ,数字 评价 自身 ， 参数 评价 环境 中 的 值 。 可 以 使 用 
AILog 谓词 iss SHSMKRAREWAANH, Nis ERR. 如果 王 是 一 个 数字 ， 
number E) HA. 
(c) 如 果 目 标 GERRARD ERAR, Wid pprove(G，Env) 为 真 ， 其 中 参数 在 环境 Env 
中 解释 。 
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与 AILog 交互 的 例子 如 下 : 

ailog: tell f(X,Y) <= Y is 2*at+b*X. 

ailog: ask pprove(f(3,Z), [val(a,7),val(b,5)]). 

Answer: pprove(f (3,29), [val(a,7) ,val(b,5)]). 
[ok,more,how,help]: ok. > 

ailog: ask pprove(f(3,Z),[val(a,5),val(b,7)]). 

Answer: pprove(f(3,31), [val(a,5) ,val(b,7)]). 
[ok,more,how,help]: ok. 

ailog: tell dsp(X,Y) <= Z is X*X*a & Y is Z*Z*b. 

ailog: ask pprove(dsp(3,Z), [val(a,7),val(b,5)]). 

Answer: pprove(dsp(3,19845), [val(a,7) ,val(b,5)]). 
[ok,more,how,help]: ok. 

ailog: ask pprove(dsp(3,Z), [val(a,5),val(b,7)]). 

Answer: pprove(dsp(3,14175) , [val(a,5),val(b,7)]). 
[ok,more,how,help]: ok. 
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Artificial Intelligence: Foundations of Computational Agents 


关系 规划 、 学 习 和 概率 推理 





现在 需要 做 的 是 最 大 可 能 地 发 展 数学 逻辑 ， 从 而 能 够 完整 表达 关系 的 重要 性 ， 并 将 一 
个 新 的 哲学 远 辑 置 于 这 坚实 的 基础 之 上 。 这 个 新 建立 的 哲学 远 辑 可 望 从 这 个 数学 基础 借鉴 
一 些 精 确 性 和 确定 性 。 如 果 这 个 任务 能 够 实现 ， 则 我 们 有 充分 的 理由 去 期 竺 不 久 的 将 来 会 
是 一 个 与 数学 原理 之 于 近代 那样 伟大 的 纯 理 论 丫 学 时 代 。 伟 大 的 胜利 孕育 巨大 的 希望 ; 在 
我 们 这 一 代 ， 纯 理论 思维 可 能 产生 的 伟大 的 结果 。 有 可 能 将 我 们 的 时 代 与 最 伟大 的 十 希腊 
Bt AR HEA o 





Bertrand Russell[1917 ] 


表示 方案 维度 有 作为 顶层 的 个 体 与 关系 推理 。 关 系 推理 允许 使 用 压缩 的 表示 方法 ， 该 
方法 可 在 Agent 遇 到 特定 个 体 之 前 建立 。 当 一 个 Agent 被 引荐 给 一 个 新 个 体 时 ， 它 能 推断 
其 与 该 个 体 的 关系 。 本 章 概述 在 三 个 AI 领域 中 如 何 扩展 基于 特征 的 表示 以 处 理 个 体 与 关 
系 。 在 其 中 的 每 一 个 领域 ， 关 系 的 表示 受益 于 能 够 在 知道 个 体 之 前 (因此 ， 也 是 在 知道 特 
征 之 前 ) 建 立 。 正 如 Russell 在 上 面 的 引文 中 所 指出 的 那样 ， 关 系 的 推理 相 比 命题 的 (及 基 
于 特征 的 ) 表 示 具 有 很 大 的 优势 。 


14. 1 规划 个 体 与 关系 


Agent 的 目标 及 其 环境 经 常 使 用 个 体 和 关系 来 描述 。 在 Agent 的 知识 库 建立 后 ， 且 知 
道 其 应 该 推理 的 对 象 之 前 ， 它 需要 一 个 独立 于 个 体 的 表示 法 。 因 此 ， 它 必须 采用 超越 基于 
特征 的 表示 法 。 当 个 体 已 知 时 ， 可 以 不 使 用 基于 特征 的 表示 法 。 使 用 不 依赖 于 特定 领域 的 
表示 法 进行 推理 常常 是 有 用 的 。 

通过 关系 的 表示 ， 我 们 可 以 具体 化 时 间 。 时 间 (time) 可 以 使 用 指示 了 时 间 点 的 个 体 或 
表示 了 时 间 段 的 个 体 来 表示 。 本 节 介 绍 两 种 关系 的 表示 法 ， 其 区 别 在 于 具体 化 时 间 的 方法 
不 同 。 


14.1.1 情景 演算 


情景 演算 (situation calculus) 背 后 的 思想 是 那些 (可 达 的 ) 状 态 可 由 为 达到 它们 所 需要 
的 行动 来 定义 。 这 些 可 达到 的 状态 被 称 为 情景 。 一 个 情景 中 的 真 可 由 此 情景 中 的 关系 定义 
为 一 个 参数 。 可 将 情景 演算 视 为 动作 的 基于 特征 表示 的 关系 版 本 。 

这 里 ， 我 们 仅 考 虑 一 个 Agent、 一 个 完全 可 观察 的 环境 及 确定 性 的 动作 。 

情景 演算 由 情景 来 定义 。 一 个 情景 (situation) 是 下 面 两 者 之 一 : 

。 init: 初始 情景 。 \ 

。 do(A, S): 在 情景 S 中 执行 动作 A 而 产生 的 结果 情景 (假设 在 情景 S 中 可 以 执行 

BIE A). 

【 例 14-1) 考虑 图 3-1 的 领域 背景 。 假 设 在 初始 状态 init 时 ， 机 器 人 rob 在 位 置 o109， 

且 邮 件 收 发 室 (maiz) 中 有 一 把 钥匙 所 ， 在 储藏 室 (storage) 中 有 一 个 包 于。 


a uu 


do(move(rob,o109 ,0103)., init) 
是 机 器 人 rob 由 情景 init 的 位 置 o109 移动 到 位 置 o103 后 的 情景 。 在 这 个 情景 中 ，rob 在 
0103 位 置 ， 钥 是 kl 仍然 在 mail 位 置 ， 包 于 仍然 在 storage 位 置 。 
情景 
do(move{ rob,0103 ,mail), 
do(move (70b,0109,0103) , 
init) ) 
是 机 器 人 已 经 从 位 置 0109 移动 到 o103， 并 继续 移动 到 mail, H 4A AEM AS. 
假设 rob 随后 拿 起 了 钥匙 上 1， 则 得 到 的 情景 是 : 
dot pickup (rob,kl), 
do (move(rob;,0103,mail) ， 
do(move (rob,0109,0103) , 
init) )) 
在 这 个 情景 中 ，ro5b 正在 位 置 mail SAARI. a 
一 个 情景 可 以 和 一 个 状态 相 联 系 。 人 情景 和 状态 有 两 个 主要 的 区 别 : 
。 如 果 多 个 动作 序列 最 终结 束 于 同一 个 状态 ， 那 么 多 个 情景 就 可 能 指示 着 同一 个 状 
态 。 也 就 是 说 ， 情 景 之 间 的 等 价 与 状态 之 间 的 等 价 并 不 相同 。 
。 不 是 所 有 的 状态 都 有 相对 应 的 情景 。 如 果 存 在 一 个 行动 序列 使 得 从 初始 状态 出 发 
可 以 到 达 一 个 状态 ， 则 称 该 状态 是 可 达 的 (reachable)。 不 可 达 的 状态 没有 相对 应 
的 情景 。 
一 些 do(C4，S) 项 并 不 对 应 任何 状态 。 然 而 ， 有 时 Agent 必须 在 不 知道 A 是 否 可 能 处 
于 状态 S 或 状态 S 是 否 可 能 达到 的 情况 下 对 这 种 (潜在 的 ) 情 景 进行 推理 。 
L 14-2〗 项 do(luniock《rob，doorl1)，init) 根 本 不 表示 任何 一 个 状态 ， 因 为 当 rob 不 
在 门 旁边 且 没 有 钥 是 时， 是 不 可 能 打开 门 的 。 < 
静态 (static) 关 系 是 指 其 真 值 不 依赖 于 情景 的 关系 ， 即 其 真 值 并 不 随时 间 而 改变 。 动 
态 (dynamic) 关 系 是 指 其 真 值 依赖 于 情景 的 关系 。 为 表示 一 个 情景 中 什么 是 真 的 ， 表 示 动 
态 关系 的 谓词 要 有 一 个 情景 参数 ， 从 而 其 真 值 可 依赖 于 情景 。 带 有 情景 参数 的 谓词 被 称 为 
it (fluent) 。 
LBI 14-3] 当 对 象 0 在 情景 S 中 处 于 位 置 L 时 ， KAatl(O, L, OAR. Ak, at 
是 一 个 流 。 
原子 
at(vob,o109 init) 
为 真 ， 如 果 机 器 人 rob 在 初始 情景 中 处 于 位 置 o109。 原 子 
at(rob,0103 ,do(move(rob,0109 ,0103) , init) ) 
为 真 ， 如 果 机 器 人 rob 从 初始 情景 开始 从 位 置 o109 移动 到 位 置 o103， 并 且 机 器 人 在 最 后 
产生 的 情景 中 位 于 o103。 原 子 
at(k1,mail,do(move(rob,o109 ,0103) , init) ) 
为 真 ， 如 果 机 器 人 Fe AEN ES 移动 到 位 置 o103， 并 且 在 最 后 产生 的 
ERP, kl 位 于 mail 处。 
| 可 通过 指定 情景 来 公理 化 动态 关系 (在 指定 的 情景 中 ， 动 态 关系 的 值 为 真 )。 通 常 ， 这 
可 通过 情景 的 结构 归纳 完成 。 
。 init 作为 情景 参数 的 公理 用 来 指明 初始 情景 中 什么 为 真 。 
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。 原始 (primitive) 关 系 通过 在 形 如 do(A，S) 的 情景 中 ， 根 据 情 景 S 中 什么 为 真 来 确定 关 
系 什么 时 候 为 真 来 定义 。 也 就 是 说 ， 原 始 关系 依据 在 前 一 个 情景 中 什么 为 真 来 定义 。 

。 导出 (derived) 关 系 通过 带 有 情景 参数 的 子 句 来 定义 。 导 出 关系 在 一 个 情景 中 是 否 
为 真 依赖 于 在 该 情景 中 其 他 因素 是 否 为 真 。 

。 静态 关系 的 定义 跟 情 景 无 关 。 

CG 14-4] 假设 传送 机 器 人 rob 处 于 图 3-1 所 描绘 的 域 中 。rob HEL H 0109, fae 
(parcel) 在 储藏 室 (storage)， 钥 是 (key) 在 邮件 收发 室 (mail)。 下 面 的 公理 描述 了 这 个 初 
始 的 情景 

at(rob,ol09 ,init) 

at( parcel, storage, init) 

at(kl,mail,init) 

邻接 关系 adjacent 是 一 个 动态 的 导出 关系 ， 其 定义 如 下 : 

adjacent(o109,0103,5S) 

adjacent(o0103,0109,S) 

adjacent(o109,storage,S) 

adjacent(storage,o109,S) 

adjacent(o109,0111,8) 

adjacent(ol11,0109,S) 

adjacent(o103,mail,5S) 

adjacent(mail,o103,S) 

adjacent(lab2,0109,S) 

adjacent (P, , P:S) + 

between Door, Pı +P) A 
unlocked ( Door, S) 

注意 自由 变量 S， 这 些 子 句 对 于 所 有 的 情景 都 为 真 。 我 们 不 能 省 略 S， 因 为 房间 的 邻 
接 关系 依赖 于 门 是 否 打 开 了 。 这 个 关系 在 不 同 的 情景 下 可 能 不 同 。 

关系 between 是 静态 的 ， 不 需要 一 个 情景 变量 : 

between( doorl ,0103 ,Lab2) 

我 们 还 可 以 区 分 Agent 是 否 正在 搬运 。 如 果 一 个 对 象 没 有 被 搬运 ， 那 么 我 们 说 这 个 对 
象 正 处 在 它 的 位 置 上 。 我 们 之 所 以 区 分 搬运 事件 是 因为 一 个 正在 被 搬运 的 对 象 是 随 着 搬运 
它 的 对 象 而 移动 的 。 对 象 处 于 一 个 位 置 有 两 种 情况 : 它 自 己 本 就 处 于 那个 位 置 ， 或 者 正 被 
另 一 个 处 于 那个 位 置 的 对 象 搬运 。 因 此 ， 关 系 at 是 一 个 导出 关系 : 

at(Ob.P,S)=- 

sitting_at(Ob, P, S) 

at(Ob, P, S)-— 

carrying(Obl, Ob, S)A 
at(Obl, P, S) 

注意 ， 这 个 定义 允许 机 器 人 搬运 一 个 袋子 ， 而 这 个 袋子 正 搬运 着 一 本 书 。 本 

动作 的 前 件 (precondition) 具 体 说 明了 什么 时 候 才 可 能 执行 这 个 动作 。 当 动作 A 在 情 
景 S 中 可 能 被 执行 时 ， 关 系 boss(A，S3) 为 真 。 通 常 ， 这 是 一 个 导出 关系 。 

KB 14-5) Agent 总 能 放下 它 正 搬运 的 物体 : 

poss (putdown(Ag,Obj).S)<— 

carrying(Ag,Obj +S) 
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对 于 动作 move， 一 个 自治 Agent 可 以 从 它 当 前 的 位 置 移动 到 一 个 邻接 的 位 置 : 
poss (move(AgsP1,P;),S)—— 
autonomous(Ag) 人 
adjacent(P,,P2,5) A 
sitting_at(Ag, P,, © 
开锁 动作 (unlock) 的 前 件 比 较 复 杂 。Agent 必须 在 门 的 正确 的 一 侧 并 且 拿 着 合适 的 
HE: 
poss Cunlock( Ag, Door) , S) 
autonomous(Ag) 人 
between( Door, Pi P2) A 
at(Ag,P,.S) A 
opens( Key, Door) A 
carrying(Ag,Key.S) 
我 们 并 不 假定 between 关系 是 对 称 的 。 一 些 门 只 能 单 向 通行 。 本 
我 们 根据 前 一 情景 及 转换 到 当前 情景 时 发 生 的 动作 来 递归 地 定义 每 个 情景 中 的 真 。 正 
如 动作 的 基于 特征 的 表示 中 使 用 的 规则 那样 ， 因 果 规 则 (causal rule) 明 确 一 个 关系 什么 时 
候 为 真 ， 框 架 规 则 (frame rule) 说 明 一 个 关系 什么 时 候 保 持 真 。 
【 例 14-6] 原始 的 unlocked 关系 可 通过 具体 说 明 不 同 的 动作 如 何 影 响 其 为 真 来 定义 。 
只 要 开锁 的 动作 是 可 执行 的 ， 那 么 在 执行 了 开锁 动作 之 后 的 情景 中 ， 门 是 打开 的 。 这 可 用 
下 面 的 因果 规则 来 表示 : 
unlocked (Door »dolunlock (Ag, Door),S))<— 
poss(unlock( Ag, Door) , S) 
假设 唯一 可 以 使 门 锁 起 来 的 行为 是 锁 门 的 动作 。 因 此 ，wuniocked 在 如 下 三 种 执行 了 一 


个 动作 后 所 产生 的 情景 中 为 真 : unlocked 在 执行 动作 之 前 为 真 ; 执行 的 动作 不 是 锁 门 的 动 ， 


作 lock; 能 够 执行 该 动作 。 
unlocked (Doorsdo(A,S))<— 
unlocked( Door,S) 人 
A#lock( Door) A 
poss(A,S) 
这 是 一 个 框架 规则 。 本 
LBI 14-7] 谓词 carrying 可 定义 如 下 。 
Agent 在 拿 起 (pickup) 一 个 对 和 象 之 后 就 是 正在 搬运 (carrying) 这 个 对 象 : 
carrying (Ag,Obj ,do( pickup(Ag,Obj) ,S))< 
poss( pickup(Ag,Obj),S) 
撤销 carrying 谓词 的 唯一 动作 是 放下 (putdown) 动 作 。 因 此 ， 在 执行 了 一 个 动作 之 
ja, carrying 为 真 的 情况 有 如 下 两 种 : carrying 在 该 行为 之 前 为 真 ; 该 动作 不 是 放下 对 象 
的 动作 。 这 可 由 框架 规则 表示 如 下 : 
carrying (Ag.,Obj,do(A,S))= 
carrying (Ag Obj, S) A 
poss(A,S) A 
A+ putdown(Ag,Obj) <4 
{Gil 14-8] JAF sitting_at(Obj, Pos, SOERA Obj 移动 到 Pos 而 生成 的 情景 Sı 
中 为 真 ， 只 要 上 述 动作 能 够 执行 : 


602] 
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sitting_at(Obj, Pos, dolmove(Obj, Poso, Pos), S))<— 
poss(move(Obj, Poss, Pos), S) 
男 一 个 使 sitting_at 为 真 的 情况 是 执行 putdown 动作 。 对 象 位 于 Agent 将 它 放下 时 所 
处 的 位 置 ， 
sitting_at(Obj, Pos, do(putdown(Ag, Obj), S))< 
poss(putdown(Ag, Obj), S) A 
at(Ag, Pos, S) 
其 他 唯一 可 使 sitting _at 在 一 个 ( 非 初始 的 ) 情 景 中 为 真 的 情况 是 它 在 之 前 的 情景 中 为 
真 且 没有 被 一 个 动作 改变 其 状态 。 可 以 改变 sitting_at 的 动作 只 有 move 和 pickup。 这 可 
用 如 下 的 框架 公理 来 表示 : 
sitting_at(Obj, Pos, do(A, S))= 
poss(A, S)A 
sitting_at(Obj, Pos, S) A 
Y Pos, A#move(Obj, Pos, Posi) A 
VAg AF pickup(Ag, Obj) 
请 注意 ， 上 面 规则 中 的 量词 不 是 描述 规则 的 标准 量词 。 也 可 以 通过 使 用 否定 即 失败 推 
理 来 表示 该 规则 : 
sitting_at(Obj, Pos, do(A, S))= 
poss(A, S)A 
sitting_at(Obj, Pos, S)A 
~move_action(A, Obj, Pos) A 
~ pickup_action(A, Obj) 
move_action(move(Obj, Pos, Posi), Obj, Pos) 
pickup_action( pickup(Ag, Obj), Obj) 
在 上 面 的 否定 范围 内 ， 这 些 子 句 中 没有 自由 变量 。 a 
【 例 14-9 情景 演算 可 以 表示 更 为 复杂 的 动作 ， 而 不 只 是 可 以 通过 在 状态 描述 中 简单 
增加 和 删除 命题 就 可 表示 的 动作 。 
考虑 drop_everything 动作 。 执 行 该 动作 后 ，Agent 会 放下 其 正在 搬运 的 所 有 东西 。 
在 情景 演算 中 ， 可 在 sitting at 的 定义 中 加 入 下 面 的 公理 来 表示 Agent 先前 正 搬运 的 所 有 
东西 现在 都 被 放 到 了 地 上 : 
sitting _at(Obj, Pos, do(drop_everything(Ag), S))< 
poss(drop_everything(Ag), S) A 
at(Ag, Pos, S)A 
carrying(Ag, Obj, S) 
针对 carrying 的 框架 公理 明确 了 Agent 在 drop_everything 动作 后 没有 搬运 任何 
对 象 。 
carrying (Ag,Obj ,do(A,S))=— 
poss(A,S) A 
carrying(Ag,Obj,S) A 
A#drop_everything(Ag) 人 
A+ putdown(Ag, Obj) 
Alt, drop_everything 动作 能 影响 的 对 象 数量 没有 限制 。 < 
情景 演算 通过 要 求 一 个 使 得 目标 为 真 的 情景 被 用 于 规划 (planning)。 答 案 抽 取 被 用 于 
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寻找 一 个 使 得 目标 为 真 的 情景 。 这 个 情景 可 解释 为 Agent 要 做 的 一 系列 动作 。 

LB 14-10] 假设 机 器 人 的 目标 是 得 到 钥匙 k1。 下 面 的 查询 是 要 请 求 一 个 使 该 目标 为 
真 的 情景 : 

? carrying (rob,k1,S) 

这 个 查询 有 如 下 的 答案 : 

S=do(pickup (rob,kl), 

do(move (rob,0103 mail), 
do(move (rob,0109,0103), 
; init))) 

这 个 结果 可 被 解释 为 rob 拿 到 钥匙 的 一 种 方式 : EM 0109 移动 到 o103， 然 后 移动 到 
mail, EXEC RE T HE., 

把 包 计 (初始 位 置 在 休息 室 lng) 运 送 到 olll 的 目标 可 以 通过 如 下 查询 来 询问 : 

?. at(parcel,o111,5) 

这 个 查询 有 如 下 的 答案 : 

S=do(move (rob,0109,0111), 

do( move (rob, ing,0109), 
do( pickup (rob, parcel), 
do( move (rob,o0109,lng) .init)))) 

因此 ，rob MREKRS, SHAR, HA 0109, AEA 0111, < 

在 情景 演算 定义 中 使 用 自 项 向 下 的 证 明 过 程 是 非常 低 效 的 ， 因 为 框架 公理 几乎 总 是 适 
用 的 。 一 个 完整 的 证 明 过 程 ， 如 迭代 加 深 ， 会 搜索 动作 的 所 有 置换 ， 包 括 那些 与 目标 无 关 
的 置换 。 答 案 抽 取 的 使 用 并 不 否定 使 用 高 效 的 规划 器 的 必要 性 ， 正 如 第 8 章 中 的 内 容 
那样 。 


14. 1.2 事件 演算 


第 二 种 表示 方法 一 一 事件 演算 (event caleculus) ， 建 模 了 关系 的 真 值 如 何 依 据 发 生 在 某 
些 时 间 的 事件 而 发 生变 化 。 时 间 可 被 建 模 为 连续 的 ， 也 可 被 建 模 为 离散 的 。 

事件 被 建 模 为 发 生 在 特定 的 时 间 。 事 件 王 发生 在 时 间 了 wA event(E, T). 

事件 使 一 些 关 系 为 真 ， 使 另 一 些 关 系 不 再 为 真 : 

。 initiates E, R, DHA, WRH E EmA T ERRAR AB; 

。 terminates(E, R, DWH, MRE E EM T RRRA R 不 再 为 真 。 

if [a] T Æ initiates Fil terminates 的 一 个 参数 ， 因 为 一 个 事件 的 影响 还 依赖 于 当时 其 他 
一 些 因素 是 否 为 真 。 例 如 ， 试 图 打开 一 筷 门 的 结果 依赖 于 机 器 人 的 位 置 及 它 是 否 拿 着 合适 
的 钥匙 。 

在 任何 时 刻 ， 关系 非 真 即 假 。 在 事件 演算 中 ， 关 系 被 具体 化 了 ， 其 中 用 holds(R, T) 
表示 关系 REKET 为 真 。 这 与 情景 演算 中 了 醋 作 为 R 最 后 一 个 参数 是 类 似 的 。 元 谓词 
holds 的 使 用 适用 于 对 所 有 关系 都 为 真 的 一 般 规则 。 

导出 关系 可 以 通过 同时 使 用 原始 关系 和 其 他 导出 关系 来 定义 。 

如 果 一 个 发 生 在 时间 之 前 的 事件 使 美 系 R 为 真 ， 并 且 没 有 干扰 事件 使 尺 不 再 为 真 ， 
则 原始 关系 REM TAR. RYU: 
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holds(R,T)<— 
event(E,T;) A 
To<TA 
initiates(E,R,Ts) A 
~clipped(R,T,,T) 
clipped (R,T; »T)= 
event( Ei:,T1) A 
terminates(E, ,R,T,) A 
TTA 
Trei 
原子 clipped(R, To, DEKE EHH T。 和 了 之 间 发 生 了 一 个 事件 使 得 R 不 再 为 
真 ; T.<T, 为 真 ， 如 果 时 间 To NT, 之 前 。 这 里 ， Mia 因此 这 些 子 
句 意味 着 它们 的 完备 性 。 
对 于 动作 ， 可 用 它们 的 激发 的 属性 和 终 正 的 属性 来 表示 。 在 情景 演算 中 ,动作 的 前 件 
用 poss 关系 来 限定 。 
【 例 14-11] 只 要 动作 pickup 的 前 件 为 真 ， 则 它 从 激发 carrying 关系 开始 ， 并 终止 
于 sitting_at 关系 : 
initiates ( pickup(Ag,Obj) ,carrying(Ag,Obj) ,本 一 
poss( pickup(Ag Obj) .T) 
terminates ( pickup(Ag.Obj) ,sitting_at(Obj, Pos), T)— 
poss(pickup(Ag, Obj). T) 
poss( pickup(Ag, Obj), T)=— 
autonomous( Ag) 人 
Ag+Obj A 
holds(at(Ag, Pos), T)A 
holds(sitting_at(Obj, Pos), T) 
这 意味 着 当 动 作 pickup 的 前 件 不 成 立时 ， 执 行 该 动作 将 不 会 发 生 任何 事情 。 也 可 以 
用 一 些 子 句 来 说 明 在 不 同 的 环境 下 执行 该 动作 会 发 生 什 么 ， 例 如 试图 拿 起 一 个 被 其 他 物件 
持 有 的 对 象 时 所 发 生 的 情况 。 < 
如 果 出 现 了 特定 的 动作 ， 且 完全 知识 假设 成 立 ( 所 有 涉及 的 事件 均 已 明确 )， 则 带 有 失 
败 即 否定 的 自 顶 向 下 的 证 明 过 程 可 以 用 来 证 明 哪 些 为 真 。 对 于 规划 问题 ，Agent 能 够 使 用 
淹 因 推理 。 


14.2 个 体 与 关系 的 学 习 


在 个 体 和 关系 的 学 习 方面 ， 其 中 关系 的 结构 对 于 预测 是 很 重要 的 。 第 7 章 讲述 的 学 习 
方法 均 假 设 特征 值 都 是 有 意义 的 ; 通过 使 用 特征 值 ， 可 以 预测 一 种 情况 的 一 些 有 用 信息 。 
然而 ， 当 样本 是 个 体 和 关系 时 ， 属 性 的 值 可 能 是 个 体 的 无 意义 的 名 字 。 只 有 通过 考虑 名 称 
所 指 的 个 体 的 属性 及 该 个 体 与 其 他 个 体 的 关系 ，Agent 才能 做 出 有 意义 的 预测 。 学 习 到 的 
知识 可 以 应 用 到 未 出 现在 训练 集中 的 个 体 上 。 

由 于 这 项 工作 的 很 大 部 分 已 在 逻辑 编程 的 环境 下 完成 ， 因 此 通常 称 之 为 归纳 逻辑 编程 
(inductive logic programming) 。 


【 例 14-12) 假设 一 个 交易 Agent 有 如 下 关于 人 们 喜欢 的 度假 胜地 的 数据 集 ， 数 据 条 
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目 用 个 体 - 属 性 - 值 Cindividual-property-value) 三 元 组 的 形式 表示 : 


likes resort_14 


dislikes resort_35 


resort_14 type resort 


resort_14 near beach_18 


beach_18 type beach 
beach_18 covered_in WS 
ws type sand 


ws color white 





该 Agent 想 知道 Joe 喜欢 什么 。 此 时 ， 重 要 的 不 是 likes 属性 的 值 一 一 这 个 值 只 是 一 
个 没有 意义 的 名 称 一 一 而 是 个 体 通 过 该 名 称 所 指 的 属性 。 除 能 了 解 到 Joe 喜欢 resort_14 不 
喜欢 resort_35 之 外 ， 基 于 特征 的 表示 不 能 在 这 个 数据 集 上 做 任何 事情 。 
可 以 猜测 ，Agent 应 该 学 习 的 是 Joe 喜欢 靠近 海边 沙滩 的 旅游 胜地 。 这 个 猜测 可 以 表 
示 为 一 个 逻辑 程序 : 
prop(joeslikes,R)<— 
prop(R,type,resort) 人 
prop(R,near,B) 人 
prop(B, type, beach) A 
prop(B,covered_in, S) 人 
prop(S, type, sand) 
逻辑 程序 提供 了 表示 关于 个 体 和 关系 的 确切 猜测 的 能 力 。 这 个 规则 可 以 应 用 于 Joe 没 
有 去 过 的 旅游 胜地 和 海滨 。 可 
归纳 逻辑 编程 学 习 器 的 输入 内 容 如 下 : 
。 原子 集合 A， 其 定义 了 Agent 的 学 习 内 容 ; 
。 E+ 是 A 元 素 的 基 实 例 的 集合 ， 称 为 正 类 样本 (positive example), (AHH; 
。 E 是 A 元素 的 基 实 例 的 集合 ， 称 为 负 类 样本 (negative example), (HAH: 
。 B 是 背景 知识 (background knowledge)， 是 定义 了 能 用 于 逻辑 程序 学 习 结果 的 关 
系 的 子 句 集合 ; 
。 五 是 一 个 可 能 假设 空间 。 百 经 常 隐 式 地 表示 为 一 个 算 子 的 集合 ， 该 算 子 可 生成 可 
能 的 假设 。 我 们 假定 每 一 个 假设 都 是 一 个 逻辑 程序 。 
〖 例 14-13】 在 例 14-12 中 ,假设 Agent 想 学 习 Joe 喜欢 什么 。 此 时 的 输入 是 : 
« A={prop(joe, likes, R)}. 
。 E+ 二 {prop(joe，likes，resort_14)，…})}。 对 于 接 下 来 的 例子 ,我们 假设 有 很 多 
Joe 喜欢 的 类 似 项 目 。 
。 E-=({prop(joe, likes, resort_35), =). WER, RBAERRAKS: 它们 的 
观察 值 为 假 。 
。 B=(prop(resort_14, type, resort), prop resort_14, near, beach_18), =}. 


这 个 集合 包含 了 所 有 不 在 A 中 的 关于 环境 的 事实 。Agent 不 学 习 这 些 内 容 。 
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。 及 是 一 个 定义 了 prop (joe，likes，R) 的 逻辑 程序 的 集合 。 子 名 的 头 部 与 prop 
(joe，likes，R) 一 致 。 集 合 H 太 大 而 不 能 够 枚 举 出 来 。 
以 上 除了 互 之 外 ， 都 在 问题 的 说 明 中 明确 给 出 。 < 
现在 的 目标 是 找到 一 个 最 简单 的 假设 hE 日 满足 : 
BAhFE* H 
BAh E- 
也 就 是 说 ,假设 蕴含 着 正 证 据 且 不 蕴含 负 证 据 。 假 设 必须 与 负 证 据 为 假 相 容 (consistent)，。 
因此 ， 我 们 希望 找到 变 体 空间 中 的 一 个 元 素 。 这 类 似 于 渊 因 的 定义 ， 在 那里 湖 因 知识 
库 对 应 于 背景 知识 。 归 纳 逻 辑 编程 的 假设 空间 是 迎 辑 程序 的 集合 。 第 二 个 条 件 对 应 于 相 
容 性 。 i 
本 节 的 其 余部 分 假设 我 们 想 要 学 习 的 是 一 个 单 目 标的 元 关系 的 定义 ， 用 谓词 符号 t 
来 表示 ， 即 A 二 {z(Xi，…，X,)}。 关 系 的 假设 空间 由 可 以 使 用 逻辑 程序 给 出 的 所 有 定义 
形式 组 成 。 
归纳 逻辑 编程 中 主要 使 用 下 面 两 个 策略 : 
。 第 一 个 策略 是 从 最 简单 的 假设 开始 ， 然 后 逐渐 变 得 复杂 以 适应 数据 。 因 为 逻辑 程 
序 仅 规 定 了 正 类 事实 ， 所 以 最 简单 的 假设 是 最 一 般 的 假设 ,， 仅 简单 表明 
(XX1，…，XX,) 总 为 真 。 这 个 假设 蕴含 了 正 类 样本 ;但 它 也 蕴含 了 负 类 样本 (如 果 
有 的 话 ) 。 该 策略 包含 了 从 一 般 到 具体 的 搜索 。 它 试图 在 假设 空间 中 通过 从 最 简单 
的 假设 到 更 加 复杂 的 假设 的 搜索 找到 一 个 适应 数据 的 最 简单 的 假设 ; 搜索 的 假设 
总 是 蕴含 正 类 样本 ， 且 该 搜索 直到 找到 一 个 不 蕴含 负 类 样本 的 假设 时 才 停 止 。 
。 第 二 个 策略 是 从 一 个 适合 数据 的 假设 开始 ， 然 后 在 保证 仍然 适合 数据 的 情况 下 不 
断 简化 。 适 合 数据 的 假设 是 正 类 样本 的 集合 。 这 一 策略 包含 了 从 具体 到 一 般 的 搜 
R: 从 最 具体 的 假设 开始 一 一 该 假设 中 仅 有 正 类 样本 为 真 ， 然 后 推广 子 句 ， 避 免 
涵盖 负 类 样本 。 
我 们 将 在 从 一 般 到 具体 的 搜索 中 扩展 限定 子 句 。 初 始 假 设 包 含 了 一 个 子 句 : 
{iCX st Xa) A} 
具体 化 算 子 (specialization operator) WATARA G 并 返回 具体 化 G 之 后 的 子 句 集合 
S。 具 体 化 表示 为 SEG. 
以 下 是 三 个 原始 的 具体 化 算 子 : 
。 在 条 件 c 下 拆 分 G 中 的 一 个 子 句 。 集 合 G 中 的 子 句 a<-b 被 两 个 子 名 代替: ab A 
c 和 a<—bA 7c. 
。 根据 出 现在 4 或 5 中 的 变量 X 拆 分 G 中 的 子 句 a<-65。 子 句 a<-65 被 以 下 子 句 代替 : 
axb\ X= 


a+b\ X= 
Hp ¢, 是 项 。 

。 删除 证 明正 类 样本 非 必需 的 子 句 。 

最 后 一 个 操作 改变 了 子 句 集 的 预言 。 那 些 不 再 被 子 句 集合 蕴含 的 情况 为 假 。 

这 些 原始 的 具体 化 算 子 结合 使 用 ， 形 成 了 APRS. RAN 中 的 算 子 设计 为 原始 
具体 化 算 子 的 组 合 ， 因 此 可 以 使 用 贪 禁 (greedy) 前 有 瞻 的 方法 来 评估 搜索 的 进展 。 也 就 是 
说 ， 对 算 子 进行 了 定义 ， 从 而 使 得 一 步 即 可 评估 搜索 的 进展 情况 。 

前 两 个 原始 的 具体 化 操作 应 该 明智 而 谨慎 地 执行 ， 以 确保 发 现 最 简单 的 假设 。Agent 
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只 在 拆 分 操作 能 取得 进展 的 情况 下 才 执 行 拆 分 操作 。 拆 分 操作 只 在 与 子 句 删除 操作 结合 使 
用 时 才 有 用 。 人 例如， 向 子 句 添加 一 个 原子 相当 于 根据 该 原子 进行 拆 分 操作 ， 然 后 删除 含有 
否定 该 原子 的 子 句 。 更 高 层次 的 具体 化 算 子 可 能 为 一 些 出 现在 子 句 中 的 变量 X 根据 原子 
prop(X, type, T HATID ERE: 根据 值 T 进行 拆 分 ， 然 后 删除 对 于 蕴含 正 类 样 杰 来 说 
不 必要 的 子 句 。 这 个 算 子 在 确定 有 用 的 类 型 方面 做 出 改进 。 
图 14-1 给 出 了 一 个 用 于 逻辑 程序 自 顶 向 下 归纳 的 局 部 搜索 (local search) WRK. BH 
法 维护 了 一 个 假设 ， 并 反复 改进 它 直 到 找到 一 个 适合 数据 的 假设 (或 者 直到 无 法 找到 一 个 
这 样 的 很 设 ) 才 停止 。 609 


procedure TDInductiveLogicProgram(t, B, E*, E , R) 


1; 
2: Inputs 
3: tr 一 个 原子 ， 其 定义 为 学 习 目 标 

4 B: 背景 知识 ， 是 一 个 逻辑 程序 

5: E*; 正 类 样本 

6: E: 负 类 样本 

7 R: 具体 化 算 子 集合 

8: Output 

9: HE DRAE. E 分 类 为 负 的 逻辑 程序 ， 当 找 不 到 上 述 运 辑 程 序 时 输出 | 
10; Lecal 

11: 互 是 子 句 的 集合 

12: H(X; +, X,)<} 

13: while 存在 e€EE 满足 BUH Fe do 

14: 证 存在 rE R WK BUr( ADEE? then 








15; 选择 rER WR BUrCUDEE* 
16; H=<r(H) 

17; else 

18: return | 

19; return H 





图 14-1 逻辑 程序 的 自 上 项 向 归纳 


在 每 一 个 时 间 步 ， 算 法 都 在 每 一 个 假设 都 蕴含 了 正 类 样本 的 约束 下 选择 一 个 算 子 。 该 
算法 掩盖 了 两 个 重要 的 细节 : 

。 需要 考虑 哪些 算 子 。 

。 最 终 选择 哪个 算 子 。 

这 些 算 子 应 处 在 一 定 的 水 平 ， 以 便 可 以 根据 是 否 向 找到 一 个 好 的 假设 方向 取得 进展 来 
评价 它们 。 与 决策 树 学 习 中 的 方式 类 似 ， 该 算法 可 以 执行 当前 最 优 的 选择 。 也 就 是 说 ， 它 
在 使 得 误差 最 小 的 算 子 中 选择 使 得 进展 最 大 的 那个 算 子 。 假 设 的 误差 可 以 是 该 假设 所 蕴含 
的 负 类 样本 的 数量 。 

【 例 14-14] 考虑 例 14-12。 在 这 个 例子 中 ，Agent 必须 学 习 Joe 喜欢 什么 、 不 喜欢 什么 。 

第 一 个 假设 是 Joe 喜欢 所 有 的 事情 : 

{ prop joe; likes, R)+-} 

该 假设 与 负 类 证 据 不 相 容 。 

可 以 根据 包含 了 Joe 喜欢 的 个 体 的 属性 来 拆 分 该 假设 。 为 取得 进展 ( 即 在 蕴含 了 所 有 
正 类 样本 的 前 提 下 包含 了 更 少 的 负 类 样本 ) 的 具体 化 方法 是 把 变量 R 包含 在 具体 化 结果 中 ， 
因此 ， 必 须 考虑 R 在 三 元 组 中 作为 主语 或 宾语 的 那些 三 元 组 。 610 

。 可 以 考虑 在 属性 type 上 进行 拆 分 : 根据 type 的 取 值 进行 拆 分 ， 并 只 保留 那些 为 证 明正 

类 样本 所 需要 的 内 容 。 最 后 得 到 下 面 的 子 句 (假设 正 类 样本 只 包括 旅游 胜地 resort) : 
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{propljoe, likes, R)<-prop(R,type,resort))} 
如 果 正 类 样本 包含 除 resort 之 外 的 其 他 东西 (Joe 也 喜欢 这 些 东 西 )， 则 也 可 有 
其 他 子 句 。 如 果 负 类 样本 包含 了 非 旅游 胜地 的 内 容 ， 则 这 个 拆 分 将 有 助 于 减少 
RE. 
。 也 可 以 考虑 根据 有 助 于 证 明正 类 样本 的 其 他 属性 进行 拆 分 ， 例 如 如 果 所 有 的 正 类 
都 在 某 物 附近 ， 根 据 near( 接 近 ) 属 性 进行 拆 分 可 得 
{ prop( joe, likes,R)<propC(R,near.B) } 
如 果 有 一 些 负 类 样本 不 在 任何 事物 附近 ， 则 这 个 具体 化 将 有 助 于 减少 误差 。 
然后 可 以 在 这 些 拆 分 操作 中 选择 使 进展 最 大 者 。 在 下 一 步 ， 可 以 增加 男 一 子 名 、R 的 
其 他 属性 或 B 的 其 他 属性 。 


14.3 概率 关系 模型 


第 6 章 中 的 信念 网 络 概率 模型 是 依据 特征 定义 的 。 许 多 领域 依据 个 体 和 关系 有 了 最 好 
的 模型 。Agent 常常 必须 在 它们 知道 领域 中 有 哪些 个 体 之 前 一 一 从 而 也 在 它们 知道 存在 哪 
些 随机 变量 之 前 一 一 建立 概率 模型 。 在 学 习 到 上 述 概 率 之 后 ， 这 些 概率 常常 不 依赖 于 个 
体 。 尽 管 学 习 某 一 个 体 是 可 能 的 ， 但 Agent 必须 同时 学 习 一 般 的 知识 ， 从 而 ， 在 Agent 发 
现 新 的 个 体 时 能 够 运用 这 些 知识 。 

【 例 14-15) 考虑 一 个 智能 教学 系统 诊断 学 生 的 算术 错误 问题 。 通 过 观察 学 生 在 几 个 
练习 题 上 的 表现 ， 教师 应 努力 确定 学 生 是 否 理 解 了 学 习 内 容 ， 如 果 没 有 理解 ， 则 应 找 出 学 
生 哪 里 做 错 了 ， 从 而 能 够 采用 适当 的 补救 措施 。 

考虑 诊断 两 位 数 加 法 算式 的 情况 ; 

Xy Xo 
abs MM) = Ya 
Z2 ZI Zo 

给 了 学 生 各 个 x 的 值 和 各 个 y 的 值 ， 要 求学 生 给 出 各 个 x 的 值 。 

学 生 的 答案 依赖 于 他 们 是 否 知 道 基 本 的 加 法 
(Knows_Add), 以 及 他 们 是 否 知道 如 何 进位 (Knorwws_ 
Carry)。 这 个 例子 的 信念 网 络 如 图 14-2 所 示 。 第 i 位 的 
进位 ， 用 变量 C; 表示 ， 依 赖 于 工 的 值 、y 的 值 、 前 一 位 
数字 的 进位 ， 及 学 生 是 否 知道 如 何 进位 。 对 于 第 i 位 的 z 
值 ， 表 示 为 变量 Z, WTF z 的 值 、y 的 值 、 第 i 位 上 的 
进位 ， 及 学 生 是 否 知道 基本 的 加 法 。 

通过 观察 问题 中 之 AA y 的 值 ， 以 及 学 生 给 出 的 z 
的 值 ， 可 以 推断 出 学 生 知道 基本 的 加 法 及 如 何 进位 的 后 验 概率 。 信 和 念 网 络 模型 的 特征 之 一 
是 允许 学 生 做 出 随机 的 错误 ; 即使 他 们 知道 算法 也 仍 可 能 得 到 错误 的 答案 。 

使 用 这 种 表示 方式 的 问题 在 于 不 够 灵活 。 一 个 灵活 的 表示 方式 会 适应 多 位 数字 的 加 
法 、 多 类 的 问题 、 多 个 学 生 及 多 次 时 间 。 多 位 数字 要 求 网 络 根据 数字 位 数 进行 复制 。 多 次 
时 间 要 求 对 学 生 的 知识 及 答案 如 何 随 着 时 间 而 改变 进行 建 模 ， 即 使 上 述 问题 并 不 随时 间 而 
改变 。 

如 果 条 件 概率 被 储存 为 表格 ， 则 这 些 表 格 的 规模 将 是 巨大 的 。 例 如 ， 如 果 每 一 个 变量 
X: YMZ 的 域 大 小 均 为 11( 数 字 0 一 9 MAA blank), C 和 Knows_Add 变量 为 二 进 





14-2 ”两 位 数 加 法 的 信念 网 络 
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制 ， 则 下 式 的 表格 形式 

P(Z,|X,,¥:,C,,.Knows_Add) 
的 大 小 将 会 超过 4000。 除 使 用 表格 表示 外 ， 还 有 许多 表示 条 件 概率 的 结构 。 下 面 要 介绍 的 
结构 不 仅 可 以 适用 于 关系 概率 模型 ， 而 且 可 以 适用 于 条 件 概 率 的 压缩 描述 。 < 

概率 关系 模型 (Probabilistic Relational Model, PRM) 或 关系 概率 模型 (relational 
probability model) 是 一 种 在 关系 上 明确 了 概率 值 ， 且 概率 独立 于 实际 个 体 的 一 种 模型 。 不 
同 的 个 体 共 享 概率 参数 。 

参数 化 随机 变量 (parametrized random variable) 或 者 是 一 个 逻辑 原子 ， 或 者 是 一 个 项 。 
也 就 是 说 ， 它 的 形式 是 pln. es 1), A, 为 逻辑 变量 或 者 为 常量 。 参 数 化 随机 变量 
之 所 以 被 称 为 参数 化 的 ， 是 因为 出 现在 其 中 的 逻辑 变量 。 将 参数 化 随机 变量 中 的 逻辑 变量 
蔡 换 为 常量 就 可 得 到 参数 化 随机 变量 的 基 实 例 。 参 数 化 随机 变量 的 基 实 例 对 应 于 随机 变 
E. WR p 是 一 个 谓词 符号 ， 则 该 随机 变量 是 一 个 布尔 变量 。 如 果 p 是 一 个 函数 符号 ， 则 
该 随机 变量 的 值 域 为 p 的 取 值 范围 。 

我 们 这 里 使 用 的 符号 体例 为 : 逻辑 变量 用 大 写字 母 表 示 ; 随机 变量 对 应 于 基 原 子 和 基 
项 ， 因 此 在 本 节 使 用 小 写字 母 表示 。 

【 例 14-16) 对 于 前 面 例子 的 多 位 数字 算术 问题 的 PRM， 都 有 一 个 独立 的 变量 x 对 应 
于 其 中 的 每 一 位 数字 D 和 每 一 个 问题 PP， 该 参数 化 随机 变量 表示 为 zx-(D，P)。 HM. 


ZX(1，prob17) 是 一 个 随机 变量 ， 它 表示 了 问题 17 的 第 一 位 的 值 。 类 似 地 ， 有 一 个 参数 


化 随机 变量 yY(D，P) 表 示 了 每 一 个 问题 P 和 每 一 位 数字 DD 的 随机 变量 。 

每 一 个 学 生 S 的 每 一 时 间 了 对 应 有 一 个 变量 ,该 变量 表示 了 S 在 时 间 工 是否 知道 如 
何 做 加 法 。 参 数 化 随机 变量 knows_add(S，T) 表 示 学 生 SERET 是 否 知 道 加 法 运算 。 
如 果 fred 在 3 月 23 日 知道 如 何 做 加 法 ， 则 随机 变量 knows_add(fred，mar23) 为 真 。 类 
似 地 ， 还 有 一 个 参数 化 随机 变量 knows_carry(S, T). 

对 于 每 一 位 数字 、 每 一 个 问题 、 每 一 个 学 生 、 每 一 个 时 间 ， 都 有 不 同 的 z 值 和 不 同 的 
进位 。 这 些 值 表示 为 参数 化 随机 变量 z(D，P，S，T) 和 carry(D，P，S，T)。 因 此 ， 随 
机 变量 z(1，prob17，fred，mar23) 表 示 了 fred Æ 3 H 23 日 为 问题 17 计算 出 的 第 一 位 数 


字 的 值 。 函 数 = 的 值 域 为 {0，…，9，blank}， 因 此 上 述 随机 变量 的 取 值 范围 均 为 此 集合 。 
<4 


一 个 平板 模型 (plate model) HA AUF : 

。 一 个 有 向 图 ， 其 中 的 节点 表示 参数 化 随机 变量 。 

。 每 一 个 逻辑 变量 有 一 个 种 群 。 

。 每 一 节点 的 条 件 概 率 由 其 父 节 点 给 出 。 

平板 模型 意味 着 对 应 信念 网 络 的 具体 化 ， 即 信念 网 络 中 的 节点 都 是 参数 化 随机 变量 的 
基 实 例 ( 每 一 个 逻辑 变量 均 由 对 应 种 群 中 的 一 个 个 体 所 替代 ) 。 信 念 网 络 中 的 条 件 概率 对 应 
于 平板 模型 的 实例 。 

【 例 14-17) 图 7-17 给 出 了 一 个 层次 贝 叶 斯 模型 ， 其 中 (图 7-17a) 是 一 个 平板 模型 ， 
图 7-17b 是 该 模型 的 一 个 实例 。 图 中 左边 的 平板 表示 有 4 个 参数 化 随机 变量 : sX, H), 
HCH), ai Alass X 的 种 群 为 全 体 患者 的 集合 。 互 的 种 群 为 全 体 医 院 的 集合 。 该 网 络 的 实 
例 列 在 图 的 右边 。 每 一 个 医院 及 对 应 于 一 个 单独 的 随机 变量 $8(h); 每 一 个 病人 x 和 医院 及 
对 应 于 单独 的 随机 变量 s(xz，)。 对 每 一 个 s(x，h) 给 定 了 对 应 的 $8h) 的 条 件 概 率 ; 对 每 
一 个 $8(h) 给 定 了 a Ma 的 条 件 概率 ; 同时 给 出 了 wm 和 um 的 先 验 概 率 。 实 例 中 的 每 一 个 
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sz， 有) 变量 都 有 相同 的 由 父 节 点 规定 的 条 件 概 率 。 对 于 不 同 的 病人 zi Mz, BET HC) 
的 变量 sbz1，h) 和 s(xzs，h) 是 相互 独立 的 。 对 于 不 同 的 医院 A Phe, BET wm Ala, 时 
的 变量 s(zi，hi) 和 变量 slr, he) EIS Ma < 

【 例 14-181 fi) 14-16 的 带 参 数 化 随机 
变量 的 平板 模型 如 图 14-3 所 示 。 甚 中 的 矩 
形 对 应 于 平板 。 对 于 标记 为 D、P 的 平板 ， 
每 一 个 变量 都 有 对 应 于 每 一 位 数字 D 和 每 
TAP 的 实例 。 从 菜 个 角度 来 看 ， 这 些 实 
例 来 自 于 历史 记录 ， 就 像 堆积 的 一 操 盘 子 
一 样 。 类 似 地 ， 对 于 标记 为 S、T 的 平板 ， 
对 于 每 一 个 学 生 S 和 每 一 个 时 间 工 ,都 有 
一 个 变量 的 副本 。 对 于 两 平板 重合 区 域 的 
变量 ， 对 于 每 一 个 数字 D、 每 一 个 人 PP、 每 一 个 学 生 S 和 每 一 个 时 间 工 ， 都 对 应 有 三 个 随 
机 变量 。 请 注意 ， 这 里 的 表示 是 元 余 的 ; 平板 提供 的 信息 与 明确 的 参数 提供 的 信息 是 相同 
的 ; c 的 参数 一 定 是 D、P、S 和 耳 ， 因 为 它们 是 含有 < 的 平板 。 

平板 表示 方式 表示 了 与 信念 网 络 相同 的 独立 性 ; 给 定 了 父 节 点 ， 每 个 节点 都 独立 于 其 
非 子 孙 节 点 。 在 这 种 情况 下 ， 网 络 图 就 描述 了 平板 的 基础 。 因 此 ， 对 于 特定 的 已 E 
dom(D), pEdom(P), sEdom(S)RtEdom(T), zld, ps st 是 一 个 父 节 点 为 rld, 
b), yids p), c(d, ps sy OAM kniows_add(s， 的 随机 变量 。 在 平板 模型 中 的 参数 化 随 
机 变量 c(D，P，S，T) 上 有 一 个 循环 ， 因 为 对 于 相同 的 问题 、 学 生 和 时 间 ， 一 位 数 的 进 
位 也 依赖 于 前 一 位 数 的 进位 。 类 似 地 ， 在 某 一 时 间 学 生 是 否 知道 如 何 进 位 依赖 于 他 们 之 前 
是 否 知道 如 何 进位 。 然 而 ， 条 件 概率 表 使 得 基础 网 络 是 无 环 的 。 

给 定 了 父 节点 ， 每 个 参数 化 随机 变量 都 有 一 个 条 件 概 率 。 这 个 条 件 概 率 在 它 的 基础 实 
例 中 是 共享 的 。 < 

不 幸 的 是 ， 当 相同 关系 下 的 不 同 实例 中 产生 相互 依赖 关系 时 ， 仅 靠 平 板 表示 是 不 够 
的 。 在 之 前 的 例子 中 ，cC(D，P，S， 了 ) 部 分 依赖 于 c(D 一 1，P，S， 了 T)， 即 部 分 依赖 于 前 
一 位 数字 的 进位 (对 于 第 1 位 数字 来 说 还 有 其 他 的 情况 )。 另 一 个 更 复杂 的 例子 是 确定 两 个 
作者 是 否 是 合作 者 的 概率 ， 确 定 的 依据 是 他 们 是 否 共同 写 过 一 篇 文章 。 为 了 表示 这 类 情 
况 ， 能 够 明确 逻辑 变量 间 的 交互 是 有 用 的 ， 正 如 在 逻辑 程序 中 做 的 那样 。 

一 种 综合 了 信念 网 络 、 平 板 和 逻辑 程序 思想 的 表示 是 独立 选择 逻辑 (Independent 
Choice Logic, ICL). ICL 由 一 组 独立 选择 、 为 各 个 选择 指定 结果 的 逻辑 程序 及 在 选择 上 
的 概率 分 布 组 成 。 更 具体 的 ，ICL 的 定义 如 下 : 

抉择 (alternative) 是 原子 的 集合 ， 这 些 原子 共享 相同 的 逻辑 变量 。 选 择 空间 (choice 
space) 是 抉择 的 集合 ， 其 中 抉择 中 的 原子 互 不 合 一 。ICL 理论 包含 : 

。 一 个 选择 空间 C。 设 C 为 抉择 的 基 实例 集合 。 因 此 ，C 是 基 原 子 集合 的 集合 。 

。 一 个 无 环 逻 辑 程 序 ( 它 可 以 包含 否定 即 失 败 推 理 ) ， 其 中 ， 子 名 的 头 部 与 选择 空间 

中 的 抉择 的 元 素 不 合 一 。 

。 在 每 一 个 抉择 上 的 概率 分 布 。 

逻辑 程序 和 选择 空间 中 的 原子 可 以 包括 常数 、 变 量 和 函数 符号 。 

选择 器 函数 (selector function) 从 C 的 每 一 个 抉择 中 选择 一 个 元 素 。 对 于 每 一 个 选择 
器 函数 存在 一 个 可 能 世界 (possible world) 。 罗 和 辑 程序 明确 了 在 每 一 个 可 能 世界 中 哪些 为 
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真 。 在 一 个 可 能 世界 中 ， 原 子 g 为 真 ， 如 果 它 是 由 选择 器 函数 选 出 并 加 入 逻辑 程序 的 原 
子 之 一 。 命 题 g 的 概率 通过 在 可 能 空间 集合 上 的 一 个 度量 给 出 ， 其 中 各 抉择 的 不 同 基 础 
实例 中 的 原子 是 概率 独立 的 。 一 个 抉择 的 实例 共享 相同 的 概率 ， 且 不 同 实例 的 概率 
相 乘 。 

逻辑 程序 的 无 环 性 意味 着 对 于 涉及 证 明 任 一 个 g 的 原子 ， 仅 存在 有 限 个 抉择 。 因 此 ， 
尽管 对 于 任意 的 gs 可 能 有 无 限 多 的 可 能 世界 ， 概 率 度量 仍 可 在 可 能 世界 集合 上 定义 ,而 这 
些 可 能 世界 可 通过 有 限 的 抉择 来 描述 。 这 些 世 界 的 描述 可 通过 下 面 的 方式 找 出 来 : 使 原子 
在 抉择 中 可 假定 ， 借 助 不 同 的 原子 在 相同 的 抉择 中 产生 不 一 致 ， 并 使 用 滴 因 推理 来 发 现在 
使 g 为 真 的 世界 集合 的 描述 。 

ICL 理论 可 被 看 做 一 个 因果 模型 ， 在 该 模型 中 ， 因 果 机 制 使 用 逻辑 程序 表示 ， 而 背景 
变量 一 一 对 应 于 各 个 抉择 一 一 则 在 各 抉择 上 分 配 独立 的 概率 数 。 可 能 有 人 认为 ,这 种 只 有 
无 条 件 独 立 的 原子 和 确定 的 逻辑 程序 的 逻辑 在 表达 需要 的 知识 类 别 上 显得 能 力 太 弱 。 然 
而 ， 即 使 不 用 逻辑 变量 ， 独 立 选 择 逻 辑 也 能 表示 出 信念 网 络 所 能 表示 的 所 有 概念 。 

【 例 14-19] 考虑 使 用 独立 选择 逻辑 表示 例 6-10 中 的 信念 网 络 。 这 个 技术 适用 于 任何 
信念 网 络 。 

火 情 和 干扰 没有 父 节 点 ， 因 此 ， 它 们 可 以 被 直接 表示 成 抉择 : 

{ fire,no fire} 

{tampering ,notampering } 

在 第 一 个 抉择 上 的 概率 分 布 为 PC(fire)= 二 0.01，P(nofire) 二 0.99。 类 似 的 ，P (tam- 
pering)=0. 02, P(notampering)=0. 89, 

Smoke Ñ Fire 间 的 依赖 关系 可 使 用 两 个 抉择 来 表示 : 

{ smoke WhenFire ,nosmokeWhenFire} 

{ smoke When NoFire ,nosmoke WhenNoFire} 

Herp, P(smokeWhenFire) =0.9, P(smokeWhenNoFire)=0. 01, TJ APA Al Ml SE 
明 什 么 时 候 有 和 烟 : 

smoke<— fire N smokeWhenFire 

smoke<—~ fire N smokeWhenNoFire 

为 表示 Alarm 如 何 依赖 于 Fire 和 Tampering ， 可 用 如 下 4 个 抉择 : 

{alarmWhenTamperingFire,noalarmWhenTampering Fire} 

{alarmWhenNoTamperingFire,noalarmWhenNoTamperingFire} 

{alarmWhenTam pering NoFire,noalarmWhenTam pering NoFire} 

{alarm WhenNoTampering NoFire,noalarmWhenNoTampering NoFire} 

HH, P CalarmWhenTamperingFire) = 0.5, P (alarmWhenNoTamperingFire) = 
0. 99， 类 似 地 ， 其 他 原子 也 使 用 例 6-10 中 的 概率 。 同 样 还 有 明确 alarm 何 时 为 真 的 规则 
(alarm 何 时 为 真 依赖 于 于 扰 和 火 情 ) : 

alarm=—tam pering À fire \ alarmWhenTampering Fire 

alarm<~tampering N fire N alarmWhenNoTamperingFire 

alarm+tampering N ~ fire \ alarmWhenTampering NoFire 

alarm<—~tampering N ~ fire \ alarmWhenNoTampering NoFire 

其 他 随机 变量 的 表示 方法 类 似 ， 可 使 用 与 父 节点 的 取 值 数目 相同 个 数 的 抉择 来 表示 。 本 

条 件 概率 的 ICL 表示 可 以 被 看 做 决策 树 规则 的 形式 ， 其 中 概率 在 叶子 节点 上 确定 。 每 
一 个 分 支 都 对 应 一 个 规则 和 一 个 抉择 。 当 涉及 非 二 进 制 的 变量 时 ,， 非 三 路 的 抉择 就 很 
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有 用 。 
在 表示 标准 的 信念 网 络 时 ， 独 立 选择 逻辑 可 能 不 是 非常 直观 ， 但 它 可 以 使 复杂 的 关系 
模型 变 得 简单 ， 如 下 面 的 例子 所 示 。 
【 例 14-20] 考虑 例 14-16 中 多 位 数 加 法 的 参数 化 版 本 。 平 板 对 应 于 逮 辑 变量 。 
z(D，P，S，T) 的 取 值 有 三 种 情况 。 第 一 种 情况 是 学 生 在 这 个 时 间 知 道 加 法 运算 ， 
并 且 回 答 没 有 错误 。 此 时 ， 他 们 得 到 了 正确 的 答案 : 
z(D,P,S,T,V)=— 
z(D,P,Vz) A 
y(D,P,Vy) A 
carry(D,P,S,T,Vc) A 
knowsAddition(S,T) A 
~mistake(D,P,S,T) A 
V is(Vr-+Vy+Ve)div 10 
ERE, RT (D, P, S, T, WHRRMSR CME <(D, P, S, TW 
V。 这 是 一 个 标准 的 逻辑 规则 ， 也 与 限定 子 句 的 含义 相同 。 
这 里 有 一 种 针对 学 生 是 否 在 上 述 情况 下 磁 巧 犯 了 错误 的 抉择 ， 
Y PY SY T{noMistake(D,P,.S.T),mistake(D,P,S,T)} 
其 中 ， mistake(D，P，S， 了) 的 发 生 概 率 为 0.05， 即 假设 学 生 在 知道 如 何 做 算术 的 
情况 下 仍然 有 5% 的 概率 做 错 。 
第 二 种 情况 是 学 生 在 这 个 时 间 知 道 加 法 运算 但 却 犯 了 错误 。 此 时 ， 我 们 假设 学 生 在 每 
位 数字 上 犯错 的 可 能 性 是 相同 的 : 
<(D5PrSy T.V) 
knowsAddition(S.T) A 
mistake(D,P,S,T) A 
selectDig(D,P,S,T,V) 
这 里 有 一 个 抉择 指明 学 生 选 取 了 哪个 数字 : 
V PV SY T(selectDig(D,P,.S,T,V)|VE{0..9}} 
对 于 每 一 个 v, (AB selectDig(D, P, S, T, vw) 的 概率 为 0. 1。 


最 后 一 种 情况 为 学 生 不 知道 如 何 做 加 法 。 此 时 ， 学 生 随 机 地 选择 一 个 数字 : 
z(D,P,S,T)= V+ 

~knowsAddition(S,T) A 

selectDig(D,P,S,T)=V 


这 三 种 规则 覆盖 了 z 的 所 有 规则 ; 它 比 用 表格 表示 所 需要 的 、 大 于 4000 条 数据 的 表 
格 要 简单 得 多 ， 并 且 它 适用 于 任意 位 数字 、 任 意 问 题 、 任 意 学 生 和 任意 的 时 间 。 不 同 的 数 
字 和 问题 为 xCD， 已 ) 赋 予 不 同 的 值 ， 且 对 于 不 同 的 学 生 和 时 间 有 不 同 的 值 来 表示 他 们 是 
否 知道 加 法 运算 。 

对 于 进位 的 规则 是 类 似 的 ， 其 主要 的 不 同 在 于 规则 体 中 的 进位 依赖 于 前 一 数字 。 

在 任意 时 间 ， 学 生 是 否 知道 加 法 运算 依赖 于 他 们 在 前 一 时 间 是 否 知道 加 法 运算 。 根 据 
推测 ， 学 生 的 知识 还 依赖 于 发 生 了 哪些 动作 (学 生 和 老师 做 过 什么 )。 因 为 ICL 允许 标准 逻 
辑 程序 ( 带 有 “噪声 ”)， 所 以 在 本 章 开 始 介 绍 的 表示 方法 均 可 用 来 表示 模型 的 变化 。 < 

前 面 章节 用 过 的 AILog 也 实现 了 ICL. 


14.4 RENE 
。 4 Agent 要 求 在 它 知道 将 会 遇 到 什么 个 体 之 前 给 出 或 学 习 模 型 时 ， 就 会 用 到 关系 表示 。 
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， 许多 之 前 章节 出 现 过 的 表示 方式 可 以 转换 成 关系 的 形式 。 

+ 在 情景 演算 中 ,根据 Agent 的 动作 ， 使 用 init 常量 和 ido 函数 来 表示 时 间 。 

。 事件 演算 允许 有 连续 和 离散 的 时 间 ， 并 公理 化 事件 发 生 后 的 后 续 事 情 。 

。 归纳 逻辑 编程 可 以 用 来 学 习 关 系 模型 ， 即 使 特征 的 值 是 无 意义 的 名 字 也 可 以 。 
© 独立 选择 人 逻辑 允许 在 个 体 被 认 知 之 前 详细 说 明 概 率 模型 。 


.14.5 参考 文献 及 进一步 阅读 


情景 演算 由 McCarthy 和 HayesL1969] 提 出 。 这 里 提出 的 框架 公理 的 形式 可 以 追溯 到 Kowalski 
[1979]、SchubertL1990] 及 Reiter[ 1991]。Reiter[ 2001] 对 情景 演算 做 了 一 个 全 面 的 总 结 ; Brachman 和 
Levesque[ 2004] 也 做 了 这 个 工作 。 关 于 如 何 解 决 框架 问题 ， 即 简明 扼要 地 阐述 在 执行 一 个 动作 的 过 程 中 
那些 不 变 的 内 容 ， 研 究 者 还 提出 了 许多 其 他 的 建议 。 事 件 演算 由 Kowalski 和 SergotL1986] 提 出 。Shanah- 
an[1997] 为 表示 改变 所 涉及 的 问题 和 特定 的 框架 问题 做 了 一 个 极 好 的 介绍 。 

归纳 逻辑 编程 的 概述 可 以 参见 Muggleton 和 DeRaedt[1994]、Muggleton[ 1995] 及 Quinlan 和 (Cameron- 
Jones[ 1995]. 

独立 选择 逻辑 由 Poole[1993，1997] 提 出 。De Raedt, Frasconi, Kersting 和 Muggleton[ 2008] 及 
Getoor 和 Taskar[2007] 的 论文 概述 了 概率 关系 模型 及 如 何 学 习 这 个 模型 。 


关系 、 归 属 及 存在 的 不 确定 性 


在 14.3 节 介 绍 的 模型 关注 的 是 关系 的 不 确定 性 ， 即 有 关 一 些 个 体 间 的 关系 是 否 为 真 的 不 确定 性 。 鲁 
如 ， 我 们 可 以 设计 一 个 FikesCX，Y) 的 概率 模型 ， 其 中 X 天 Y， 它 为 不 同 的 人 相互 喜欢 建立 了 模型 。 这 可 
能 依赖 于 和 和 YY 的 外 部 特征 。 我 们 也 可 以 为 .Friends(X，X) 设 计 一 个 概率 模型 ， 它 为 某 个 人 是 否 喜 欢 自 
已 建立 了 模型 。 这 可 能 依 闲 于 该 人 的 内 部 特征 。 这 样 的 模型 对 于 辅导 系统 确定 两 个 人 是 人 否 应 该 在 一 起 工 
作 ， 或 者 确定 导致 学 生 犯 错误 的 原因 是 材料 的 难度 还 是 学 生 的 个 性 ， 是 很 有 用 的 。 

给 定 个 体 sam 和 chris, 只 有 在 我 们 知道 Sam 和 Chris 是 不 同 的 人 时 我 们 才能 使 用 概率 模型 
likes(sam，chris)。 归 属 不 确定 性 (identity uncertainty) 问 题 关注 的 是 两 个 项 是 否 指 示 的 是 同一 个 体 的 不 
确定 性 。 这 对 于 医疗 系统 是 一 个 问题 ， 在 该 系统 中 ， 和 确定 正在 与 该 系统 交互 的 人 是 否 就 是 昨天 已 经 访问 
过 的 那个 人 是 很 重要 的 。 如 果 病 人 本 就 不 愿 沟通 或 者 想 揪 骗 该 系统 (比如 想得到 毒品 )， 则 识别 这 个 问题 
就 光 为 困难 。 在 医学 界 ， 该 问题 就 是 记录 关联 (record linkage) 问 题 ， 其 目标 是 确定 哪些 医疗 记录 是 同一 
个 人 的 。 

在 上 面 的 例子 中 ， 已 知 个 体 是 存在 的 ; 给 定名 字 Chris 和 Sam 就 是 说 假定 他 们 存在 。 给 定 一 个 描述 ， 
确定 是 否 存 在 一 个 个 体 符合 该 描述 的 问题 就 是 存在 不 确定 性 (existence uncertainty) 问题 。 存 在 不 确定 性 
之 所 以 成 为 一 个 问题 是 因为 可 能 不 存在 一 个 符合 该 描述 的 个 体 ， 或 者 有 多 个 个 体 符合 该 描述 。 我 们 不 能 
给 一 个 不 存在 的 个 体 赋予 属性 ， 因 为 不 存在 的 个 体 根本 就 没有 属性 。 如 果 我 们 想 给 一 个 存在 的 个 体 指定 
一 个 名 字 ， 则 我 们 需要 关心 的 是 我 们 指 的 是 哪个 个 体 ( 如 果 存 在 多 个 个 体 )。 存 在 不 确定 性 的 一 个 特例 是 
数量 不 确定 性 (number uncertainty)， 即 存在 的 个 体 数量 不 确定 。 例 如 ， 一 个 采购 Agent 可 能 无 法 确定 对 
参加 旅游 团 感 兴趣 的 人 数 ， 而 旅游 团 能 否 成 行 取决 于 对 此 感 兴趣 的 人 的 数量 。 

如 果 涉 及 复杂 的 角色 ， 且 问题 是 确定 是 否 有 个 体 适 合 这 些 角 色 ，、 则 关于 存在 不 确定 性 的 推理 会 非常 
HF. ZEAR Agent 一 一 它 必须 为 Sam 和 她 的 儿子 Chris 找到 一 个 公寓 。Sam 是 否 喜欢 一 个 公寓 
的 概率 部 分 依赖 于 她 的 房间 的 大 小 和 Chris 的 房间 的 颜色 。 然 而 ,个 人 的 公 寅 并 不 会 标记 Sam 的 房间 和 
Chris 的 房间 ， 且 可 能 并 不 存在 他 们 所 希望 的 房间 。 给 定 一 个 Sam 希望 的 公 帘 情况 模型 ,如 何在 观察 上 
平衡 条 件 仍然 是 不 明确 的 。 


14.6 习题 
14. 1 给 情景 演算 的 例子 (可 从 本 书 网 站 上 得 到 ) 添 加 为 一 个 物体 涂 颜 料 的 能 为 。 特 别 地 ， 添 加 谓词 
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colar( Obj ,Col, Sit) 
如 果 物 体 Obj 在 情景 Sit 时 的 颜色 为 Col 则 该 调 词 为 真 。 

包 训 的 颜色 一 开始 是 蓝 色 。 因 此 ， 我 们 有 一 个 公理 ， 

color( parcel sblue, init) 

有 一 个 动作 paint(Obj，Co) 可 把 物体 Obj HM Col 颜色 。 对 于 这 个 问题 ， 假 设 物体 仅 可 被 涂 
为 红色 ， 且 仅 在 物体 和 机 器 人 均 位 于 位 置 o109 时 才能 够 涂 色 。 颜 色 在 机 器 人 上 有 积累 效果 ( 没 办 
法 把 颜色 从 一 个 物体 上 去 除 ， 即 如 果 你 把 包 囊 涂 成 红色 ， 则 包 囊 既是 红色 又 是 蓝 色 一 当然， 这 
在 现实 中 是 不 存在 的 ， 但 这 样 做 可 使 问题 得 到 简化 ) 。 

使 用 情景 演算 公理 化 谓词 color 和 动作 paint. 

你 可 以 使 用 不 超过 三 个 子 名 做 到 这 一 点 (包括 前 面 提 到 的 定义 了 初始 情景 颜色 的 子 铅 )， 其 中 
任 一 个 子 句 的 主体 中 都 不 超过 两 个 原子 符号 。 你 不 需要 相等 、 不 等 或 否定 即 失 败 推理 。 请 在 
AlLog 中 测试 。 


你 得 到 的 输出 应 该 大 致 如 下 : 

ailog: bound 12. 

ailog: ask color(parcel,red,S). 

Answer; color(parcel,red, do(paint(parcel,red), 

do(move(rob, storage ,o109) , 
do(pickup(rob, parcel), 
do(move(rob,0109,storage) , 
init))))) 


在 这 个 问题 中 ， 你 将 添加 一 个 比 前 一 习题 中 更 加 复杂 的 涂 颜色 的 动作 。 
假设 对 象 paint_can(Color) RBA EH Color 的 颜料 。 
添加 一 个 动作 paint(Obj, Color), € TH RABY BIE IR MR Color 色 ( 与 前 一 个 习题 不 同 ， 此 时 

物体 仅 有 一 个 颜色 )。 涂 颜色 的 动作 只 有 在 物体 位 于 o109、 自 主 Agent 也 位 于 o109 HHA i—i 

合适 颜色 的 颜料 时 才能 进行 。 

AILog 执行 深度 有 限 搜索 。 你 可 能 已 注意 到 求解 前 面 的 问题 时 比较 慢 ， 因 此 我 们 要 求 一 个 深度 限 

制 (该 限制 的 深度 接近 于 实际 的 深度 ) 以 使 问题 的 求解 时 间 限 制 在 合理 的 范围 之 内 。 

在 此 ， 估算 下 面 的 查询 需要 多 长 时 间 的 大 代 加 深 搜 索 才 能 找到 一 个 解 : 

ask sitting_at (parcel ,lab2,S) 

(不 要 刻意 去 尝试 一 一 它 的 运行 时 间 非 常 长 。) 

(a) 估计 能 找到 一 个 规划 的 最 小 的 限制 。( 提 示 : 解决 这 个 问题 需要 多 少 步 ? 这 些 步 数 与 需要 的 深 
度 限制 有 何 关系 2) 证 明 你 的 估计 。 

(b) 估算 搜索 树 的 分 支 因子 。 为 做 到 这 一 点 ， 你 应 该 考察 完成 第 上 十 1 层 搜 索 的 时 间 ， 并 对 比 完成 
第 上层 搜索 的 时 间 。 你 既 需 要 通过 实验 验证 你 的 答案 (通过 运行 程序 )， 也 需要 通过 理论 分 析 
证 明 它 (通过 考察 分 支 因 子 的 大 小 ) 。 你 不 必 运 行 需要 大 量 时 间 的 例子 来 求解 这 个 问题 。 

(c) 根据 你 给 出 的 前 两 问 的 答案 ， 及 你 在 一 些小 的 限定 下 运行 程序 时 的 发 现 ， 估计 搜索 完 搜索 树 
需要 的 时 间 ， 其 中 搜索 深度 比 发 现 一 个 解 所 必需 的 深度 小 1。 证 明 你 的 答案 。 

在 这 个 问题 中 ， 你 将 考察 为 机 器 人 传送 问题 使 用 事件 演算 ， 

Ca) 使 用 事件 演算 表示 动作 move. 

Cb) 使 用 事件 演算 表示 例 14-10 中 的 每 一 个 动作 序列 。 

Co) 说 明 事 件 演算 可 从 (b) 部 分 给 出 的 动作 序列 中 导出 合适 的 目标 。 

假设 在 事件 演算 中 有 两 个 动作 Open 和 Close, MEM TH 0 时 的 值 为 假 的 初始 关系 opened。 动 作 

Open fË opened 关系 变 成 真 ， 动 作 Close {E opened 关系 变 成 假 。 假设 动作 Open 发 生 在 时 间 5, Bh 

作 Close 发 生 在 时 间 10, 

Ca) 使 用 事件 演算 表示 该 问题 。 

(b) 关系 opened 在 时 间 3 为 真 吗 ? 给 出 推导 过 程 。 

(c) 关系 opened 在 时 间 7 为 真 吗 ? 给 出 推导 过 程 。 
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(d) 关系 opened 在 时 间 13 HAIG? 给 出 推导 过 程 。 

(e) KA opened 在 时 间 5 为 真 吗 ? 请 解释 。 

CD 关系 opened EM [a] 10 HAG? 请 解释 。 

(g) 给 出 holds 的 可 选 公理 化 表示 ，holds 在 时 间 5 和 时 间 10 有 不 同 的 行为 。 

Ch) 说 明 其 中 的 一 个 公理 化 比 男 一 个 好 。 

举 出 一 些 具 体 的 可 用 于 自 顶 向 下 归纳 逻辑 编程 的 具体 化 算 子 。 定 义 这 些 算 子 ， 从 而 可 评价 算 子 的 
进展 。 请 解释 在 什么 情况 下 这 些 算 子 会 取得 进展 。 i 

对 于 例 14-20 中 加 法 的 表示 ， 之 前 假设 < 的 观察 值 均 为 数字 。 请 改变 表示 方式 ， 从 而 使 得 观察 什 
可 以 为 数字 、 空 白 或 其 他 。 请 给 出 合适 的 概率 。 

使 用 ICL 表示 前 面 章节 的 电气 领域 问题 ， 使 得 表示 可 以 在 AILog 中 运行 。 这 个 表示 应 包括 例 6-11 
中 的 概率 依赖 和 例 12-11 中 的 关系 。 


621 


satj ee ee a ey ems re aD | ee DATELE Ge f a 190 wh pe w 
5 wt 7 a, my ii ase 
s a et aoe a ie uz en Le l e Aai ees ye a a 
Bes TO -Ey 
eM de Te aa et A pee er ee 


lee ® @¢7 6 ry fe E 4 è 
Ai arni Bhai lati ii tak: Ay oie the 
= ~~): È dac Tar z pi 
aw è a Seok 
ye ya gis TA Dy- Fo 二 
eo 


in 
wa 1R pee AAA eA 


ey 
" 





Wn 


ro ss T 


rm 
而 有 Bier mu 
WSO | Ke 
eo. ko Oe mel oo 





a 





x 
> 
i 

j 

ki 

i 

， 

i 

4 


| 第 五 部 分 


Artificial Intelligence: Foundations of Computational Agents 


TE M PEL st 





623 


625 


第 15 章 | 


Artificial Intelligence: Foundations of Computational Agents 


回顾 与 展望 





计算 是 我 们 现代 洞穴 的 火种 。 到 2056 年 ， 计 算 革命 带 来 的 社会 转化 将 被 认为 和 工业 
革命 带 来 的 转化 一 样 显 著 。 计 算 的 演化 和 广泛 传播 所 带 来 的 后 果 将 对 社会 经 济 学 、 科 学 和 
文化 产生 重大 的 影响 。 





Eric Horvitz[_2006 | 


本 章 对 前 面 所 讨论 的 内 容 作 一 个 宏观 的 评论 。 通 过 将 众多 的 表示 方案 置 于 我 们 先前 介 
绍 的 设计 空间 中 ， 各 种 表示 之 间 的 关系 就 变 得 明朗 了 。 这 样 做 使 得 我 们 能 够 理解 人 工 智能 
研究 的 现状 及 其 演化 。 我 们 也 将 讨论 由 于 智能 计算 Agent 的 发 展 和 应 用 所 带 来 的 一 些 社会 
与 道德 后 果 。 正 如 Horvitz 在 引言 中 所 指出 的 那样 ， 计 算 正 在 改变 世界 ; 我 们 必须 意识 到 
它 的 正面 与 负面 影响 。 


15.1 复杂 性 维度 回顾 


人 工 智能 研究 的 进展 如 何 ? 目前 的 前 沿 问题 是 什么 ”为 了 系统 地 讨论 这 些 宏观 问题 ， 我 
们 利用 1. 5 节 所 介绍 的 人 工 智 能 系统 的 设计 空间 来 说 明 。 在 1.5 节 中 ， 我 们 介绍 了 横 跨 部 分 
设计 空间 的 9 个 维度 。 本 节 说 明 如 何 将 本 书 中 介绍 的 一 些 表示 方法 置 于 设计 空间 之 中 。 

图 15-1 回顾 了 复杂 性 的 维度 ， 它 是 在 图 1-6 的 基础 上 扩展 而 来 的 ， 增 加 了 一 个 键 属性 
( 取 值 为 多 个 * 号 ， 在 后 续 的 图 中 会 用 到 ) 。 


键 
* 
zk 
eee 
* 
*k 
‘ke 
* 
ak 
kkk 
kik 


* 


ae 


结果 的 不 确定 性 7 
偏好 i 

学 习 

Agent 的 个 数 

计算 局 限 性 
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根据 各 个 维度 的 值 ， 图 15-2 对 本 韦 中 介绍 的 一 些 表示 方法 进行 了 分 类 。 


马尔 可 夫 决 策 过 程 

部 分 可 观察 马尔 可 夫 决 策 过 程 
动态 决策 网 络 

多 Agent 决 策 网 络 

策略 改进 

增强 学 习 

情景 演算 

独立 选择 逻辑 


图 15-2 依据 复杂 性 的 维度 列 出 的 一 些 表示 方法 


第 3 章 介绍 的 状态 空间 搜索 除了 人 允许 不 定期 的 规划 外 ， 其 他 维度 均 取 最 简单 的 值 。 利 
用 基于 特征 的 表示 法 或 者 STRIP 表示 法 ， 回 归 规 划 扩 展 了 状态 空间 搜索 ， 以 便 进行 基于 
特征 的 推理 。 约 束 满足 问题 (CSP) 规 划 的 效率 更 高 ， 但 代价 是 只 能 进行 有 限期 的 规划 。 

基于 实用 性 原则 ,决策 网 络 具 有 下 列 特性 : 基于 特征 的 表示 、 随 机 的 结果 、 部 分 可 观 
察 和 复杂 的 偏好 。 然 而 ， 和 约束 满足 问题 规划 一 样 ， 决 策 网 络 只 能 进行 有 限期 的 规划 。 

马尔 可 夫 决 策 过 程 (MDP) 虽 然 允 许 不 定期 或 无 限期 的 规划 、 随 机 的 结果 和 复杂 的 偏 
好 ， 但 采用 的 却 是 假定 状态 是 完全 可 观察 的 基于 状态 的 表示 法 。 部 分 可 观察 马尔 可 夫 决 策 
过 程 (POMDP) 人 允许 存在 一 个 部 分 可 观察 的 状态 ， 但 求解 更 为 困难 。 动 态 决 策 网 络 扩展 了 
马尔 可 夫 决 策 过 程 ， 以 允许 基于 特征 的 表示 法 表示 状态 。 动 态 决 策 网 络 也 扩展 了 决策 网 
络 ， 以 允许 不 定期 或 无 限期 的 规划 ， 但 无 法 处 理 部 分 可 观察 状态 的 情形 。 

多 Agent 决策 网 络 扩 展 了 决策 网 络 ， 以 允许 存在 多 个 Agsnt。 策 略 改进 算法 允许 多 个 
Agent 进 行 学 习 ， 但 只 允许 单个 状态 和 规划 水 平 为 1( 重 复 单 步 游戏 ); 唯一 的 不 确定 性 在 于 其 
他 Agent 的 行为 。 可 以 将 策略 改进 算法 看 成 是 基于 单个 状态 和 多 Agent 的 增强 学 习 算法 。 

增强 学 习 扩展 了 马尔 可 夫 决 策 过 程 ， 以 允许 学 习 。11. 3. 9 节 讨 论 了 基于 特征 的 增强 学 习 。 

情景 演算 和 事件 演算 允许 存在 个 体 和 关系 的 表示 以 及 不 定期 的 规划 ,但 不 能 表示 不 确 
定性 。 : 
独立 选择 逻辑 是 一 种 关系 的 表示 法 ， 它 能 表示 行为 结果 的 不 确定 性 、 感 知 的 不 确定 性 
和 效用 ; 然而 ， 在 这 个 最 一 般 的 框架 中 ， 推 理 并 不 高 效 。 

构建 一 个 Agent 最 困难 的 维度 是 感知 的 不 确定 性 。 多 数 的 表示 方法 通过 激活 Agent 的 
历史 功能 ( 仅 对 有 限期 规划 有 效 ) 来 处 理 感知 的 不 确定 性 。 在 部 分 可 观察 马尔 可 夫 决 策 过 程 
中 ,讨论 了 如 何 扩 展 基于 感知 不 确定 性 和 不 定期 及 无 限期 问题 的 规划 ,但 其 中 建议 的 解决 
方法 依赖 于 显 式 的 状态 。 如 何 处 理 各 种 形式 的 感知 问题 ， 是 目前 人 工 智能 研究 最 为 活 牙 的 
领域 之 一 。 

在 图 15-2 中 ， 没 有 一 种 方法 处 理 了 层次 分 解 问题 。 有 关 层 次 规划 和 层次 增强 学 习 的 
大 部 分 工作 本 书 并 未 涉及 。 
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有 限 理 性 是 许多 在 实践 中 获得 应 用 的 盈 近 方法 的 基础 ;然而 ， 在 思考 与 行动 之 间 做 出 明 
确 的 折 中 (Agent 是 否 立即 行动 ， 还 是 进一步 的 思考 ) 的 研究 ， 相 对 来 讲 还 是 比较 少见 的 。 

可 以 看 出 ， 我 们 只 是 介绍 了 人 工 智能 设计 空间 中 的 极 小 一 部 分 内 容 。 目 前 的 研究 前 沿 
已 经 远 远 超出 了 本 书 所 涵盖 的 内 容 。 在 人 工 智能 的 各 个 领域 都 存在 许多 活跃 的 研究 课题 。 
已 经 而 且 将 继续 在 以 下 各 个 方面 获得 引 人 瞩 目的 进展 : 规划 、 学 习 、 感 知 器 、 自 然 语 言 理 
解 、 机 器 人 以 及 其 他 一 些 子 领域 。 从 复杂 性 维度 来 看 ， 许 多 方面 的 内 容 是 非常 深奥 的 ， 但 
依然 只 是 占据 了 人 工 智能 设计 空间 的 一 小 部 分 。 

传统 上 ， 在 关系 推理 (通常 基于 一 阶 逻辑 或 框架 ) 和 不 确定 性 推理 (通常 基于 概率 ) 之 间 
存在 一 个 鸿沟 。 虽 然 目前 正在 填 平 该 鸿沟 ， 但 在 一 些 会 议和 研究 论文 中 依然 可 见 其 踪影 。 

将 人 工 智能 研究 分 解 为 多 个 子 领域 并 不 令 人 奇怪 。 人 工 智能 的 设计 空间 太 大 了 ， 以 致 无 
法 同时 进行 研究 。 一 旦 茶 个 研究 者 决定 处 理 ， 比 如 说 ， 关 系 领域 的 问题 并 推导 对 象 是否 存 
在 ， 则 增加 传感器 的 不 确定 性 是 困难 的 。 如 果 某 个 研究 者 开始 进行 无 限期 的 规划 学 习 ， 则 增 
加 特征 或 层次 推理 是 困难 的 ; 更 不 用 说 基于 无 限期 规划 、 关 系 和 层次 的 组 合 的 学 习 了 ， 

在 设计 空间 中 ， 有 一 些 特殊 的 研究 点 在 过 去 的 几 年 里 属于 前 沿 研究 问题 : 

。 Agent 同时 在 多 个 抽象 层 进行 学 习 的 增强 学 习 ; 

。 多 Agent 增强 学 习 ; 

。 关系 概率 学 习 ; 

。 考虑 歧义 、 上 下 文 和 语 用 的 自然 语言 理解 ; 

。 能 穿 过 不 确定 环境 的 机 器 人 小 车 ; 

。 考虑 嗜 杂 传 感 环境 (如 : 学 生 情 绪 ) 的 智能 教学 系统 。 

我 们 仍然 不 知道 如 何 构建 这 种 关系 学 习 Agent; 针对 无 限期 的 规划 和 存在 多 个 Agent 
的 部 分 可 观察 域 。 对 这 个 问题 存在 一 定 的 争议 ， 有 些 研究 者 认为 或 许可 以 通过 层次 近似 推 
理 达 到 该 目标 。 因 此 ， 虽然 我 们 还 不 能 构建 具有 人 类 水 平 的 智能 Agent， 但 似乎 拥有 研制 
这 样 一 个 Agent 的 “积木 块 "。 主 要 挑战 是 如 何 处 理 现实 世界 的 复杂 性 。 然 而 ， 至 今 似乎 不 
存在 构建 具有 人 类 水 平 的 计算 Agent 的 内 在 障碍 。 


15.2 社会 与 道德 后 果 


随 着 人 工 智 能 科技 的 发 展 ， 出 现 了 越 来 越 多 的 智能 器 件 ， 它 们 的 广泛 应 用 会 对 人 类 社 
会 及 我 们 的 星球 产生 深刻 的 道德 、 心 理 、 社 会 、 经 济 和 法 律 影响 。 这 里 仅 概略 地 说 明 其 中 
的 部 分 问题 。 从 某 种 意义 上 来 说 ， 人 工 自治 Agent 简化 了 下 一 阶段 的 技术 发 展 ， 这 是 关于 
技术 开发 应 用 的 影响 的 普遍 看 法 ; 然而 ， 从 另 一 个 方面 来 讲 ， 它 们 导致 了 严重 的 不 连续 
性 。 自 治 Agent 独立 地 进行 感知 、 决 策 和 行动 。 这 在 我 们 的 技术 和 技术 图 景 中 是 一 个 巨大 
的 质变 。 这 种 发 展 增加 了 Agent 挣脱 我 们 的 控制 进行 不 可 预知 行为 的 可 能 性 。 和 任意 的 颠 
覆 性 技术 一 样 ， 可 能 存在 大 量 的 正面 和 负面 结果 一 对 于 有 些 结果 ， 我 们 将 难以 评判 其 好 
坏 ; 我 们 也 将 不 能 简单 地 预见 某 些 结果 。 

为 阑 述 方便 ， 现 以 大 家 均 熟 知 的 自治 车 辆 作为 例子 进行 说 明 。 实 验 性 自治 车 辆 已 经 从 最 
初 的 形式 发 展 到 机 器 人 坦克 、 货 物 搬运 车 和 自动 化 战争 机 器 人 。 从 某 种 意义 上 讲 ， 机 器 人 战 
争 可 能 存在 显著 的 优点 ,但 同时 又 是 非常 危险 的 。 幸 运 的 是 ， 愤 梦 仅 出 现在 科幻 小 说 中 。 

ThrunL2006] 对 于 这 种 车 辆 持 乐 观 态 度 。 拥 有 智能 车 辆 的 正面 影响 将 是 巨大 的 。 考 虑 
利用 公路 进行 潜在 的 生态 保护 ， 与 直接 对 农田 进行 铺路 相 比 ， 这 种 方法 更 高 效 。 在 安全 方 
面 ， 智 能 车 辆 减少 了 每 年 发 生 在 路 上 的 伤亡 事故 : 据 估 计 ， 全 世界 每 年 死 于 交通 事故 的 人 
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数 达 120 万 人 ,受伤 的 人 数 超 过 5000 万 。 智 能 汽车 在 十 字 路 口 能 够 进行 通信 和 协商 。 除 
了 减少 交通 事故 ， 道 路 的 通行 量 可 达到 原来 的 3 倍 。 老 人 和 残障 人 士 可 以 自己 独立 地 穿行 
道路 。 人 们 可 以 自主 地 调度 汽车 进 车 库 ， 然 后 又 召回 它们 。 这 将 真正 实现 自治 汽车 的 停车 
自动 化 ， 而 不 是 使 用 地 面 停车 场 。 在 这 方面 获得 成 功 的 正面 影响 是 鼓舞 人 心 的 。 对 于 自治 
车 辆 发 展 的 后 果 ， 存 在 两 种 截然 不 同 但 却 一 致 的 情形 : 必须 考虑 其 中 的 道德 后 果 。 科 幻 小 
说 将 很 快 地 变 成 科学 事实 。 

无 论 是 作为 一 门 科学 ， 还 是 作为 一 门 工 程 学 科 ( 技 术 及 其 应 用 )， 人 工 智能 现在 都 是 发 展 
成 熟 的 。 它 为 我 们 星球 的 环境 施加 正面 影响 的 机 会 是 很 多 的 。 人 工 智能 研究 人 员 和 开发 工程 
师 具备 独特 的 视角 和 技能 ; 这 些 视角 和 技能 对 于 在 实践 中 处 理 全 球 变 暖 、 贫 穷 、 粮 食 生 产 、 
军备 控制 、 健 康 、 教 育 、 人 口 老 龄 化 和 人 口 统计 等 问题 是 必需 的 。 作 为 一 个 简单 的 例子 ,我 
们 可 以 改善 人 工 智 能 学 习 的 访问 工具 ， 以 便 增 强人 们 利用 人 工 智 能 技术 解决 问题 的 能 力 ， 而 
非 依赖 专家 构造 不 透明 的 系统 。 正 如 机 器 人 世界 杯 足 球 锦标 赛 (RoboCup) 所 获得 的 成 功 那 样 ， 
基于 人 工 智能 系统 的 游戏 和 竞赛 能 非常 有 效 地 进行 学 习 、 教 学 和 环境 研究 。 

我 们 已 经 探讨 了 智能 汽车 和 智能 交通 控制 对 于 环境 方面 的 一 些 影响 。 其 他 方面 的 例子 
如 下 : 已 经 在 频谱 分 配 和 物流 方面 获得 应 用 的 组 合拍 卖 技术 ， 可 进一步 应 用 于 提供 碳 补偿 
和 优化 能 源 供给 与 需求 ; 智能 节能 控制 器 (使 用 分 布 式 传感器 和 激励 器 ， 可 提高 建筑 物 内 
部 能 源 利 用 率 ) 的 进一步 研究 ; 可 以 利用 定性 建 模 技 术 对 天 气 状况 进行 模拟 。 基 于 限制 的 
系统 的 思想 可 用 于 分 析 可 持续 发 展 系 统 。 如 果 一 个 系统 与 它 所 在 的 环境 是 平衡 的 ， 则 称 该 
系统 是 可 持续 发 展 的 。“ 平 衡 " 的 意思 是 系统 耗费 的 资源 及 其 产 出 不 仅 满足 短期 约束 ， 也 满 
EKHAR. 

许多 研究 首开 发 了 服务 于 残疾 人 和 老年 人 的 辅助 技术 。 辅 助 认 知 是 一 个 应 用 程序 ， 可 
以 辅助 感知 和 行动 ， 它 存在 的 形式 包括 智能 轮椅 、 老 年 人 伴侣 、 长 期 护理 设施 中 的 护士 助 
手 等 。 然 而 ，Sharkey[2008] 对 老年 人 和 小 孩 依 赖 机 器 人 助手 作为 伴侣 提出 了 危险 的 警告 。 
对 于 自治 车 辆 ， 研 究 人 员 必 须 切实 回答 关于 使 用 其 产品 的 相关 问题 。 

事实 上 ,我们 能 信任 机 器 人 吗 ? 存在 一 些 现 实 的 理由 使 得 我 们 仍然 不 能 依赖 机 器 人 做 
正确 的 事情 。 基 于 现在 梅 建 机 器 人 的 方法 ， 它 们 并 非 是 完全 可 信赖 的 。 因 此 ， 它 们 能 做 正 
确 的 事情 吗 ? 它们 愿意 做 正确 的 事情 吗 ? 什么 是 正确 的 事情 ?在 我 们 的 集体 潜意识 里 ， 存 
ERREKAR: 机 器 人 将 最 终 完全 自治 ， 具 有 自由 的 意志 、 智 能 和 意识 ， 并 可 能 反叛 我 
们 ， 成 为 毁灭 创造 者 自己 的 恶魔 。 

在 人 机 接口 中 ， 道 德 是 什么 样 的 ? 对 于 我 们 自己 和 机 器 人 ， 需 要 道德 编码 吗 ? 答案 看 
起 来 是 显然 的 。 许 多 研究 者 正在 研究 这 个 问题 。 事 实 上 , 许多 国家 已 经 认识 到 这 是 一 个 重 
要 的 有 争议 的 领域 。 已 经 存在 机 器 人 责任 与 保险 的 问题 ， 且 将 不 得 不 为 解决 机 器 人 问题 而 
进行 立法 。 机 器 人 设计 师 和 工程 师 也 需要 道德 的 专业 编码 ， 就 像 所 有 其 他 学 科 的 工程 师 需 
要 专业 编码 一 样 。 我 们 必须 将 下 述 这 些 问题 进行 分 门 别 类 : 在 设计 、 建 造 和 部 署 机 器 人 的 
过 程 中 如 何 考虑 道德 问题 ? 当 机 器 人 发 展 到 更 为 自治 的 时 候 该 如 何 决策 ? 当 我 们 和 机 器 人 
进行 交互 的 时 候 ， 我 们 如 何 考虑 道德 问题 和 将 产生 什么 道德 问题 ?我 们 应 该 赋予 机 器 人 什 
么 权利 ? 我 们 拥有 人 类 权利 代码 ， 但 存在 机 器 人 权利 代码 吗 ? 

我 们 将 上 述 间 题 划分 为 三 个 基本 的 必须 回答 的 问题 。 首 先 ， 在 设计 、 建 造 和 部 署 机 器 
人 的 过 程 中 ， 我 们 人 类 如 何 考 虑 道德 问题 ? 第 二 ， 当 机 器 人 发 展 到 自治 和 意志 自由 的 时 
候 ， 它 应 该 怎样 符合 道德 伦理 地 进行 决策 ? 第 三 ， 当 我 们 和 机 器 人 进行 交互 的 时 候 ， 将 产 
生 什 么 样 的 道德 问题 ? 
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对 于 这 些 问题 ， 我 们 应 考虑 科幻 小 说 家 Isaac Asimov[1950] 所 提出 的 一 些 令 人 感 兴趣 
的 建议 ， 虽 然 这 些 建 议 可 能 不 够 成 熟 。Jsaac Asimov 是 思考 这 些 问题 的 早期 思想 家 之 一 。 
他 的 机 器 人 三 法 则 是 我 们 理解 问题 的 一 个 很 好 的 基础 ， 因 为 它们 看 起 来 符合 逻辑 且 简 明 扼 
要 。 最 初 的 三 法 则 是 : 

D 机 器 人 不 得 伤害 人 类 ， 或 因 不 作为 使 人 类 受到 伤害 。 

2) 除非 违背 第 一 法 则 ， 机 器 人 必须 服从 人 类 的 命令 ，。 

3) 在 不 违背 第 一 及 第 二 法 则 的 前 提 下 ， 机 器 人 必须 保护 自己 。 

Asimov 对 前 面 提出 的 三 个 问题 的 回答 是 这 样 的 : 首先 ， 每 个 机 器 人 都 必须 遵循 这 些 
法 则 ， 机 器 人 制造 商 必 须 依法 确保 这 一 点 。 第 二 ， 机 器 人 应 该 始终 遵循 法 则 的 优先 次 序 。 
但 是 他 没有 对 第 三 个 问题 作出 更 多 的 说 明 。Asimov 的 观点 主要 源 于 人 类 意欲 机 器 人 做 什 
么 和 机 器 人 真正 做 了 什么 之 间 的 冲突 ; 或 者 是 对 于 上 述 法 则 的 字面 理解 和 合乎 情理 的 解释 
之 间 的 差异 (因为 并 没有 用 任何 形式 语言 将 上 述 法 则 编 成 法 典 )。Asimov 的 小 说 揭示 了 许 
多 存在 于 法 则 和 结果 之 间 的 隐 含 矛盾 。 

现在 有 许多 关于 机 器 人 道德 伦理 的 讨论 ， 但 大 多 数 都 预先 假定 我 们 目前 还 未 具备 相应 
的 技术 能 力 。 事 实 上 ，Bill Joy[2000] 由 于 太 担 心 新 技术 所 带 来 的 危险 的 失控 ， 以 至 于 呼吁 
暂停 研究 机 器 人 技术 (和 人 工 智 能 )、 纳 米 技术 和 基因 工程 。 本 书 对 设计 空间 作 了 条 理 分 明 
MAIR, MAT ISOLA EAS A Agent 的 设计 原理 。 我 们 希望 能 为 智能 Agent 的 社 
会 和 道德 编码 的 发 展 提供 一 个 富 含 技术 的 框架 。 

然而 ， 机 器 人 技术 可 能 并 非 是 人 工 智 能 中 最 具 影 响 的 技术 。 考 虑 在 环球 网 和 其 他 全 球 
性 计算 网 络 中 嵌 人 的 、 无 处 不 在 的 分 布 式 智 能 就 可 略 知 一 班 。 人 类 和 人 工 智 能 的 混合 将 演 
化 成 为 环球 智慧 。 全 球 性 网 络 对 发 现 和 传播 新 知识 的 方式 的 影响 已 经 可 以 比肩 印刷 机 的 发 
展 了 。 正 如 Marshall McLuhan 所 说 的 那样 : “我 们 先是 塑造 了 工具 ， 然 后 是 工具 塑造 了 我 
们 ”[McLuhan，1964]。 虽 然 他 说 这 甸 话 的 时 候 更 多 的 是 针对 书籍 、 广 告 和 电视 而 言 ， 但 
对 于 全 球 性 的 网 络 和 自治 Agent， 它 也 是 适合 (甚至 是 更 适合 ) 的 。 我 们 已 经 构建 的 Agent 
的 类 型 和 我 们 决定 构建 的 Agent 的 类 型 ， 将 会 改变 我 们 自己 ， 并 同样 多 地 改变 我 们 所 处 的 
社会 ; 我 们 必须 确保 它 向 好 的 方向 发 展 。Margaret SomervilleL2006] 是 一 个 伦理 学 家 ， 他 
声称 : 随 着 以 一 个 不 断 加 速 的 速率 将 我 们 自身 的 能 力 固化 为 技术 ， 物 种 正在 从 知人 进化 为 
技术 人 。 许 多 旧 的 社会 和 道德 框架 正在 被 打破 ， 在 这 个 新 的 世界 中 无 立足 之 地 。 作 为 人 工 
智能 新 科技 的 创立 者 ， 我 们 应 该 重视 新 技术 所 带 来 的 后 果 ， 这 也 是 我 们 共同 的 责任 。 
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数学 基础 与 记号 





本 附录 介绍 人 工 智 能 中 的 一 些 基础 数学 概念 ， 这 些 概念 传统 上 是 在 其 他 课程 里 教授 
的 。 也 介绍 在 本 书 中 使 用 的 一 些 记号 和 数据 结构 。 


A. 1 离散 数学 


我 们 所 依赖 的 数学 概念 包括 : 

集合 一 个 集合 (set) 包 含 元 素 (成 员 )。 如 果 s 是 集合 S 的 一 个 元 素 ， 则 记 为 sES。 集 合 
中 的 元 素 规 定 了 一 个 集合 ， 因 此 ， 如 果 两 个 集合 具有 相同 的 元 素 ， 则 它们 是 相等 的 集合 。 

TA rh cAeAR Hn SCRA. Ain, +. xz). THE A, 
3- 阶 元 组 是 3 个 元 素 的 有 序 组 合 。 如 果 两 个 直 阶 元 组 在 相同 位 置 上 的 元 素 相同 ， 则 称 它们 是 
相等 的 。 如 果 5 是 一 个 集合 ， 则 $ 是 xE 阶 元 组 (zx: ，…，z,) 的 集合 ， 其 中 x; 是 集合 5 的 元 
Rs S XS. XK XS, 是 直 阶 元 组 (ri，…，z) 的 集合 ,其 中 x; 是 集合 S 的 元 素 。 

关系 ”关系 (relation) 是 ww- 阶 元 组 的 集合 。 关 系 中 的 元 组 称 为 关系 的 真 值 。 

函数 ”一 个 从 定义 域 (domain)D 到 值 域 (range)R 的 函数 (function) 或 映射 (mapping) 
f， 记 为 f: D>R, 是 DXR 的 一 个 子 集 ， 其 中 对 于 任意 的 gwgE 也 ， 存 在 一 个 唯一 的 ~ER， 
<d, r>E€f, MR<d. r>Ef, 则 记 为 dD Sr. 

Ai, DLE NVA MEERA LM. MRAM PHA LRSRALE. KAW 
用 相应 的 常识 性 知识 来 加 以 理解 ， 并 检验 这 些 定义 。 


A.2 函数、 因子 和 数组 


本 书 中 的 许多 算法 处 理 函 数 的 表示 。 我 们 将 定义 在 集合 上 的 函数 扩充 到 定义 在 变量 集 
上 的 函数 。 因 子 (factor) 是 函数 的 一 种 表示 形式 。 数 组 (array) 是 函数 的 一 种 显 式 表示 ,其 
个 体 元 素 可 以 被 修改 。 

如 果 S 是 一 个 集合 ， 则 f(S) 是 一 个 定义 域 为 S 的 函数 。 因 此 ， 如 果 cES， 则 flO 
值 域 里 的 一 个 值 。fLSj] 类 似 于 f(S)， 只 不 过 前 者 的 个 体 元 素 可 以 被 更 新 。 这 种 记号 基于 
C 语言 或 Java 语言 中 的 使 用 方式 (但 这 些 语 言 仅 允许 S 是 长 度 为 n 的 整数 集合 {0，…,， 一 
1 的 情形 ;。 因 此 fLcj] 是 值 域 里 的 一 个 值 。 如 果 fLcj 被 赋予 一 个 新 值 ， 则 它 将 返回 该 值 。 

这 种 记 法 可 以 扩展 到 (代数 ) 变 量 的 情形 。 如 果 苹 是 一 个 定义 域 为 DD 的 代数 变量 ， 则 f(X) 
是 一 个 函数 ， 其 中 ， 给 定 一 个 zxED， 返 回 值 域 里 的 一 个 值 。 这 个 值 经 常 被 写成 A(X 二 zx) 或 简单 
的 f(z)。 类 似 的 ，fLXj 是 基于 索引 XX 的 数组 ， 即 X 的 函数 (元 素 可 以 被 修改 ) 。 

这 种 记 法 也 可 以 扩展 到 变量 集 的 情形 。f(X!，X。，…，X,) 是 一 个 函数 ， 其 中 ， 给 定 
Xi 的 值 v、 X: 的 值 ms S, Ka Hv,» 返回 值 域 里 的 一 个 值 。 注意 ， 这 里 重要 的 是 变 


量 的 名 称 而 非 变 量 的 位 置 。 应 用 于 特定 值 的 因子 记 为 fX = 二，Xs 二 Vs， s, X, =u). 
变量 Kis X25 Ts p 人 的 集合 称 为 了 的 范围 (scope)。 数组 FLUX: Aas xX. ] Æ Xis 
Xo aa | X, 的 函数 ， 其 中 的 值 可 以 被 更 新 。 


给 一 些 变 量 赋值 得 到 一 个 新 的 函数 ， 它 是 其 余 变 量 的 函数 。 例 如 ， ARM, 
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Xo, et, X, 的 函数 ， 则 JK: Svud) X:s s X, WAK H 

CCX: = wy) Xe = t ye X, = 0) = fKr = tX: = Heer X, = m) 

可 以 将 因子 与 其 他 任意 的 操作 算 子 在 元 素 级 别 上 做 相 加 、 相 乘 或 复合 . AA A fe E 
AFT, WAth 是 因子 (其 范围 是 万 的 范围 和 户 的 范围 的 并 ) ， 定 义 为 

i t fe) CK = vy 4 = wrt Xa = W) 

= fi CX = ti Xa = wo X, = ty) + fo Ky = t Xr = W pes Xa = 0) 
其 中 假定 fi 和 f 忽略 不 在 范围 之 内 的 变量 。 乘 法 和 其 他 二 元 操作 的 情形 与 此 类 似 。 

LB A-1] 假定 NX, Y=X+Y AY, D=VY+Z. W At+A=X+2Y+Z, 为 
X, YAZ ERKA. RUN. fi Xfr=(X+Y) X(¥+Z), 


634] fi (X=2) Y WB ELH 2+Y, 
假定 变量 W 的 取 值 范围 是 (0，1} 和 X 的 取 值 范围 是 {1，2}， 则 因子 fW, DTE 
义 为 如 下 的 一 个 表 : 





fist hi EW. KAYAR, fila: 
(GA = = mm 
类 似 的 , (fs XAW = 1, X =2,Y = 3) = 3X 5 = 15 
因子 上 的 其 他 操作 的 定义 可 以 在 本 书 里 找到 。 本 


A.3 关系 和 关系 代数 


在 人 工 智能 和 数据 库 系统 中 ， 关 系 的 概念 是 常见 的 。 关 系 代数 (Crelational algebra) E 
义 了 关系 上 的 操作 ， 是 关系 数据 库 的 基础 。 

范围 (scope)S 是 变量 的 集合 。S 上 的 元 组 (tuple)t 对 于 每 个 S 中 的 变量 均 有 一 个 值 。 
元 组 上 在 变量 X 上 的 值 记 为 we!(t，X)， 该 值 必须 在 变量 X 的 取 值 范围 之 内 。 这 和 元 组 的 
数学 记 法 类 似 ， 只 不 过 是 用 变量 而 不 是 整数 表示 索引 。 

关系 是 元 组 的 集合 ， 其 中 所 有 的 元 组 具有 相同 的 范围 。 人 们 经 常 为 关系 给 定 一 个 名 
称 。 元 组 的 范围 经 常 被 称 为 关系 的 模式 (scheme)。 关 系数 据 库 (relational database) 是 关系 
的 集合 。 关 系数 据 库 的 模式 是 关系 名 称 和 关系 模式 对 的 集合 。 

具有 范围 Xo o X, 的 关系 可 以 看 成 是 在 Xi o s X, 上 的 布尔 因子 ,其 中 取 值 为 
真 的 元 素 用 元 组 表示 。 

一 个 关系 通常 被 表示 成 一 个 表 。 

【 例 A-2〗 下 面 是 一 个 用 表 描 述 的 关系 enrolled; 


fran 
billie 
jess 


fran 





jordan 
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标题 行 给 出 了 关系 的 模式 ， 即 {Course，Year，Student，Grade); 其 余 的 每 一 行 均 表 
示 一 个 元 组 。 第 一 个 元 组 右 定义 为 val(t,, Course) = cs322, val(t,, Year) = 2008、 
val(t,, Student)= fran Ñ val (t,, Grade)=77. 

列 的 顺序 和 行 的 顺序 是 无 关 紧 要 的 。 < 

车 r+ 是 一 个 符合 模式 S 的 关系 ,< 是 定义 在 S 中 的 变量 上 的 一 个 条 件 ， r 中 c 的 选择 
(selection) 是 7 中 满足 条 件 c 的 元 组 的 集合 ， 记 为 o.(7r)。 选 择 具 有 和 7 相同 的 模式 。 

若 7 是 一 个 符合 模式 S HRR, SSS. 7 在 Su 上 的 投影 (projection) 是 范围 局 限于 So 
的 元 组 的 集合 ， 记 为 rs, Cr) 。 

LB A-3] 考虑 例 A-2 给 出 的 关系 enrolled: 

关系 Ocar (enrolled) 选 择 enrolled 中 成 绩 大 于 79 的 元 组 : 


billie 


fran 





jordan 
关系 Nisudent Year) (enrolled) Æ enrolled 中 指定 对 Student Fl Year 进行 投影 : 


fran 
billie 


jess 





jordan 


HEM. KH enrolled 中 的 第 一 个 元 组 和 第 四 个 元 组 是 怎样 在 投影 后 变 为 一 样 的 ; 它们 
在 {Student，Year) 上 表示 相同 的 函数 。 a 

如 果 两 个 关系 的 模式 相同 ， 则 关系 之 间 的 并 (union)、 交 (intersection) 和 差 (differ- 
ence) 定 义 为 元 组 集 上 的 相应 的 操作 。 

En Mr. 是 两 个 关系 ， 则 它们 之 间 的 自然 连接 (join)( 记 为 n mr;) 是 一 个 关系 ， 
其 中 : 

。 连接 的 模式 是 n 的 模式 和 xs 的 模式 的 并 ; 

。 一 个 元 组 属于 连接 ， 仅 当局 限于 n 的 范围 的 元 组 属于 关系 六 和 局 限于 re 的 范围 

的 元 组 属于 关系 ro 
[Gl A-4) 考虑 关系 assisted: 





关系 enrolled 和 assisted 的 连接 ( 记 为 enrolled vaassisted) 4 
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i e e 


fran 
billie 
jess 


billie 


jess 





jordan 


注意 ， 在 连接 中 ，cs444 的 信息 是 如 何 丢 失 的 : Course 为 cs444 的 元 组 中 不 存在 TA 
636] 的 取 值 。 
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directed graph( 有 问 图 )，75 
Dirichlet distribution( Dirichlet 分 布 )，337 
discount factor( 折 扣 因 子 )，402 
discounted reward( 折 扣 回 报 )，402 
discrete( 离 散 的 ) 46 
discrete variable( 离 散 变量 )，113 
disjunction( 析 取 )，158，185，585 
disjunctive normal form( 析 到 范式 )，189 
disposition( 处 置 )，575 
distribution( 分 布 ) 
normal( 正 态 ) 223 
dokdo( 执 行 )) 598 
domain( 域 )，112，113，496，552，633 


_domain consistent( 域 一 致 )，121 


k 31 443 





domain expert( 领 域 专家 )，63 

domain ontology{ 领 域 本 体 )，、571 

domain splitting( 域 分 割 )，125 

dominant strategy( 支配 策略 )，446 
dominates( 支 配 )，439 

don’ t-care norrdeterminism( 不 介意 不 确定 性 7，170 
don’ t-know non-determinism( 不 知道 不 确定 性 )，170 
dot product( 点 积 }，271 

DPLL; 127 

dynamic( AS). 599 

dynamic belief network( 动 态 信 和 念 网 络 )，272 
dynamic decision network( 动 态 决 策 网 络 )，409 
dynamic programming( 动 态 规划 )，103 


E 


economically efficient( 经 济 有 效 )，446 
effect( 影 响 )，350，354 
effect constraints (CR I AGE), 361 
effect uncertainty dimension( 影 响 不 确定 维度 )，24 
effectively computable( 能 行 可 计算 )}，7 
effector( X4 M2R), 44 
efficient( 7 RAY), 446 
eligibility trace( 资 格 迹 )，479 
elimination ordering QH BRHEFF). 252 
EM(IEM， 期 望 最 大 化 ) 452. 455, 460 
embedded Agent At Agent), 59 
embodied( 物 化 的 ) 44 
empirical frequency( 经 验 频 率 )，295 
endogenous variables( 内 因 变 量 )，206 
engineering goall LHR)» 4 
ensemble learning (# M3), 319 
entails GZ HAS), 160 
entity (44), 573 
entropy(#§), 232, 292 
environment( Ipi), 10 
epistemological (iA WRC HI), 221 
epistemology( 认 识 论 )，9 
equal( 相 等 )，532 
error( 误 差 )，288 

absolute( 绝 对 》，290 

sum squares( 平 方 和 )，290 

worst case( 最 坏 情 况 下 )，291 
error of hypothesis( 假 设 的 误差 )，332 
Euclidean distance( 欧 氏 距 离 )，95，325 
evaluation( 评 估 )，145 


evaluation function( 评 价 函 数 )，132，433 

event calculus( 事 件 演算 )，604 

evidence( 证 据 )，225 

evidential model( 证 据 模 型 ) 205 

evolutionary algorithrm( 演 化 算法 》，466 

exclusive-or( IR), 308 

existence Uncertainty( 存 在 的 不 确定 性 )，619 

existentially quantified variable( 存 在 量化 的 变量 )， 
500 

exogenous variables( 4} 4H), 206 

expanding(f JE). 78 

expectation maximization (EM) (期 望 最 大 化 )， 
452 


| expected monetary value( 期 望 货币 价值 )，376 


expected utility( 期 望 效用 )，386，392 
expected value( 期 望 值 )，230 

of utility of a policy( 策 略 的 效用 的 )，392 
experience( 经 历 ) 468 
expert opinion( 专 家 观点 )，297 
expert system( ZR AH). 9, 10, 61 
explained away( 解 释 消除 )，201， 243, 245 
explanation( 解 释 )，201 
exploit( 利 用 ) ，472 
explore( 探 索 )，472 
expression( 表 达 式 )，496 
extensional ( 4} HE Hy), 559 
extensionally( Fp ZEH#4) , 116 
extensive form( 扩 展 形式 )，426 
external knowledge source( 外 部 知识 源 )，65 
extrapolation( 外 推 )，286 


F 


fp), 89 

factor( AA), 249, 634 

factored finite state machine( 因 素 化 有 限 状态 机 )， 
50 

factored representation( 因 素 化 表达 )，50 

factorization( 因 式 分 解 )，236 

fail( 失 败 )，170 

failing naturally( 正 常 失败 )，96 

failing unnaturally( 非 正常 失败 )，96 

failure( 失 败 )，197 

fair( 公 平 的 )，170，518 

fairness( 公 平 )，19 

false( 假 )，159，498 
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false-negative error( 错 否定 错误 )，14，182，292 

false-positive error( 错 肯定 错误 )。14，180，292， 
293 

fault ft PA). 187 

feature engineering(##{E CHE), 484 

feature-based representation of actions( 基 于 特征 的 
动作 表示 法 )，353 

features( 特 征 ); 21, 112 

feed-forward neural network( 前 馈 神 经 网 络 )，316 

fiat part of an object( 对 象 的 特殊 部 分 )}，575 

fiat part of process( 过 程 的 特殊 部 分 )}，576 

filler( 填 充 物 )，556 

filtering( 过 滤 )，58，267，271 

finite failure( 有 限 的 失败 )，199 

finite horizon( 有 限时 域 )》 23 

finite state controller( 有 限 状 态 控制 器 ) 50 

finite state mmachine( 有 限 状 态 机 )，50 

first-order predicate calculus( 一 阶 谓 词 演 算 )，517 

fixed point( 不 动 点 )，169 

flat( 扁 平 的 )，20 

floundering goal( 率 乱 的 目标 )，541 

fluent( 流 )，599 

flying machines( 飞行 器 )，9 

for all( 对 于 所 有 的 )，500 

forward chaining( 正 向 链接 )，167 

forward planner( 前 问 规划 器 )，356 

frame( 框 架 )，556 - 

frame problem( 框 架 问 题 )，618 

frame rule( 框 架 规则 )。353，601 

framing effect( 框 加 效应 )，380 

frequentist( 频 率 论 者 的 ) 220 

fringe( 边 缘 )，77 

frontier( 前 沿 )，77 

fully observable( 完 全 可 观察 )，23 

fully observable dynamic decision network( 完 全 可 
观察 动态 决策 网 络 )，411 

fully observable Markov decision process( 完 全 可 观 
察 马尔 可 夫 决 策 过 程 )，401 

function( 功 能 )，575，633 
symbol( 符 号 )，514 

fuzzy terms( 模 糊 项 )，52 


G 


gambling( R18 ). 220 
game tree( 博 弈 树 ) 426 


Gaussian distribution( 高 斯 分 布 )，223 

general boundary( 一 般 边 界 )，329 

generalized additive independence (广义 累加 独立 
性 )，381 

generajize( 泛 化 ) 285 

generalized answer clause( 一 般 和 解答 子 各)，509 

generalized arc consistency algorithm( 广 义 弧 一 致 
We), 122 ` 

generate and test( Æ MPF Mi). 118, 146 

genetic algorithms( 遗 传 算法 )，142 

genus( 种 类 )，567 

Gibbs distribution(Gibbs 分 布 )，142，473 

Gini index(Gini 指数 )，302，345 

global minimum( 全 局 最 小 值 )，149 

goal( 有 目标 )，11，25，49，171，356 
node( 节 点 )，75 

goal constraints( 目 标 约束 )，361 

gradient descent( 梯 度 下 降 )，149，304 

grammar( 文 法 )，521 
context-free( 上下文 无 关 )，521 
definite clause( 限 定子 句 ) 522 

graph( 图 )，75 

greedy AZE), 23, 609 

greedy ascent(@4® EF), 132 

greedy descent (AAE FRE). 132 

ground(3£), 496 

ground instance( dE H), 506, 507 

ground representation( 基 础 表示 )，580 


H 


h(n), 87 
hard clustering (ME R), 452 
hard constraint (MEA R), 111, 115 
head(3&), 163, 496 
help system (#) H} RHE), 246, 312 
Herbrand interpretation( Herbrand 解释 )，508 
heuristic( 启 发 式 ) 
function( #4), 87 
knowledge (iiH), 72 
search( 搜 索 )，87 
heuristic depth-first search (启发 式 深度 优先 搜 
索 )，88 
hidden Markov model (HMM) (ART RM), 
267 
hidden variable( 隐 藏 变量 )，244,，460 
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hierarchical( 层 次 结构 的 )，20 

hierarchical Bayesian model( 层 次 贝 叶 斯 模型 )， 
338 

hierarchical control( 分 层 控 制 )，50 

hill climbing (MG yA), 132 

history JE), 10, 48, 468 

HMM, 参见 hidden Markov model 

Hoeffding’s inequality( Hoeffding Ast). 259 

horizon( HT), 361 

Horn clause(Horn F4J), 185 

how(4n fap). 17 

how question(“ 如何 ”问题 )，177 

human-computer interaction (HCI)( 人 机 交互 )， 
578 

hyperparameters( 超 参数 )，339 

hypothesis( 假 设 )，288 

hypothesis space( 假 设 空间 )，288，328 


identity uncertainty( 身 份 不 确定 性 )，619 

imperfect information game (不 完全 信息 博弈 )， 
428 

implication% £), 158 

incoming areCA MM), 75 

inconsistent(7\— 3), 186 

incorrect amswer( 不 正确 答案 )，180 

incremental gradient descent( 增 量 梯度 下 降 )，305 

indefinite horizon( 无 限定 时 域 )，23，399 

independent( 独 立 于 )，233 

independent and identically distributed (i. i, d. )( 独 
立 同 分 布 )，335 

independent choice logic (ICL) (独立 选择 逻辑 )， 
615 

independent continuant( 独 立 持 存 体 )，573，575 

indicator variabls( 指 示 变 量 ) 141, 290 

indifferent( 无 差别 )，373 

individual( 个 体 )，22，141，492，496，568 

individual-property-value( 个 体 = 属 性 = 值 )，552 

induction{ 归 纳 )，200，284 

inductive logic programming( IH 44 tE), 606 

inference), 167 

infinite horizon (JGJ AYR), 23, 399 

influence diagram(#% "fj #1), 387 

information content (fA MAA), 232 

information gain( 信 息 增益 )，232，302 


information set( 信 息 集 合 )，428 
information theory( 信 息 理 论 )，231，323 
init(init( 初 始 情景 ))，598 . 
initial-state constraints( 初 始 状态 约束 )，361 
input features( 输 入 特征 )，288 
insects( 昆 虫 )，18 
instance( 实 例 ) ，504，506 

ground( 基 )，507 
instance space( 实 例 空间 )，328 
insurance( 保 险 )，377 
integrity constraint( 完 整 性 约束 )，185 
intelligent tutoring system( 智 能 指导 系统 )，35 
intended interpretation( 预 期 解释 )，161，501 
intensional( 内 涵 的 )，559 
intensionally( Ay Wash), 116 
intention( Al). 49 
interpolation G {È ), 286 
interpretation ( ff# FF), 159, 496 
intersection(3@), 636 
intervention(-F Yi), 204, 206, 241 
involve( K), 115 
island( 孤 岛 )*，102 
island-driven search( 孤 岛 驱 动 搜索 )，101 
iterative best improvement( 和 迭代 最 佳 改 进 ) 132 
iterative deebening( 和 迭代 深化 )，95 

A‘ (A*' 算法 )，98 


J 


Java( 一 种 面向 对 象 的 编程 语言 )，495，558 

join( 连 接 )，636 

joint probability distribution (联合 概率 分 布 )， 
236, 252 


K 


k-fold cross validation(k- 折 交叉 验证 )，324 

k-means algorithm(k- 均 值 算法 )，452 

kd-tree(kad- 树 )，326 

kernel functions C EX), 314 

knowledge( iA). 12, 60 

knowledge base (Ml 1 Æ), 12, 17, 60, 160, 
163, 494, 496 

knowledge engineers( 知 识 工 程 师 )，63 

knowledge is given( 知 识 是 给 定 的 )，26 

knowledge is learned[ 知 识 是 学 习 到 的 )，26 

knowledge level( 知 识 层 ) 16, 176 
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knowledge-based systern( 基 于 知识 的 系统 )，60 
knowledge-level debugging( 知 识 层 的 调试 )，180 


L 


landmarks( 标 志 )，52 
language( 语 言 ) 521 
natural( 自 然 )，520 
language bias( 语 言 偏 置 )，331 
latent tree model( 潜 在 树 模 型 )，314 
latent variable( #7 EM), 244, 309, 460 
learning 《学 J), 61, 283-347, 441-445, 451- 
488, 606-611 
Bayesian( 贝 叶 斯 )，334 
bias( 偏 置 )，331 
case-based( 基 于 案例 的 )，324 
decision trees( 决 策 树 )，232，298 
decision tree( 决 策 树 )，321 
multiAgent( 多 Agent), 441 
neural network( 神 经 网 络 )，315 
PAC, 332, 340 
relational(K AH), 606 
supervised( 有 监督 的 ) 284 
to coordinate( Hpi), 441 
unsupervised (EHE Ay), 285, 451 
version space( 变 型 空间 )，329 
learning bias( 学 习 偏 置 )，321 
learning dimension( 学 习 维 度 )，26 
learning rate( 学 习 率 )，304 
leave-one-out cross-validation( 留 一 法 交叉 验证 )3 
325 
leaves( 叶 节点 )，75 
level of abstraction( 抽 象 的 层次 )，15 
life-long learning( 终 生 学 习 )，6 
likelihood( 可 能 性 )，229 
likelihood of the data( 数 据 的 似 然 性 )，292 
linear function( 线 性 函数 )，304 
linear regression( 线 性 回归 )，304，484 
linearly separable( 线 性 可 分 )，308 
Linnaean taxonomy( 林 奈 分 类 )，567 
lists( 列 表 )，516 
literal( 文 字 )，126，194 
liveness (EKE), 18 
local minimum( 局 部 极 小 )，149 
local optimum( 局 部 最 优 )，132 
local search( 局 部 搜索 )，130，131 ，609 


localization( 定 位 )，268 

logic 32 $), 495 

logic program GB #2 FF), 514 

logic programming G2 $ if), 207 
logical consequence(G¥ BA), 160, 499 
logical variable( #34464), 494 

logically follows GE 43048). 160 

logistic functionClogistic O, 307 
long-term memory( 长 期 记忆 )，61 

loop check( 循 环 检查 )，93 
lottery( 抽 奖 法 )，373 

lowest-cost-first search( 最 低 代 价 优先 搜索 )，86 


M 


M features(M 特征 )，360 

M system(M 系统 )，51 

machine learning( 机 器 学 习 )， 参 见 learning 

maintenance goal( 维 持 性 目标 )，25，355 

MAP model( MAP 模型 )，321 

mapping( ik $j), 633 

margin( [a] fy), 314 

Markov assumption( 5 KA] KB). 266 

Markov blanket( 340 A] KK). 235 

Markov chain (HIRR KEE), 266 

Markov decision process( 马 尔 可 夫 决 策 过 程 )， 
399, 463 

matrix multiplication( 和 矩阵 乘法 )，271 

maximum a posteriori probability( 最 大 化 后 验 概 
率 )，321 

maximum entropy (R KA), 233, 234 

maximum likelihood model (最 大 似 然 模型 )， 
292, 321 

maximum-likelihood estimate( 最 大 似 然 估计 )、295 

MDL principle(MDL 72M), 323 

MDP, J Markov decision process 

measure( KE Hit), 221 

mechanism(L fii]), 424, 446 

mechanism design( 机 制 设计 )， 446 

meta-interpreter( 元 解释 器 )，579，580，582 
ask the user( 询 问 用 户 )，589 
build proof tree( 构 建 证明 树 )，587 
built-in predicates( A Si ij), 586 
delayed goals( 推 迟 的 目标 )。 590 
depth-bounded( 深 度 有 限 )，587 
disjunction( 析 取 )，586 
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vanilla( E HY). 583 
meta-level( 元 级 )，580 
metalanguage( 元 语言 )，580 
MGU( 最 广 合 一 算 子 )，507 
minimal( 最 小 ) 
conflict( 冲突 ) ， 187 
model( 模 型 )，169 
minimal diagnosis( 最 小 诊断 ) ，189 
minimal explanation( 最 小 解释 )，201 
minimal model( 最 小 模型 )，509 
minimax( 补 小 极 大 )，430 
minimum description length (MDL) (最 小 描述 长 
BE), 323 
minimum fixed point( 最 小 不 动 点 )}，169 
missing at random( 随 机 缺失 )，461 
model( 模 型 )，15，57，116，160 
modular( 模 块 化 的 ) 20 
modularity RTE). 19 
modularity dimension( 模 抉 性 维度 ) 20 
modus ponens( 假 言 推理 ) 167 
money pump mR), 374 
monitoring( È), 267, 271 
monotone restriction( #4 74 fs fil), 95 
monotonic( HHH), 196 
more general hypothesis( 更 一 般 的 假设 )，329 
more specific hypothesis( 更 明确 的 假设 ) 329 
most general unifier( 最 广 合 一 算 子 ) 507, 511 
multiAgent decision network( 多 Agent 决策 网 络 )， 
428 
multiple Agent( 多 Agent), 25 
multiple-path pruning( 多 路 径 前 枝 )，93，94 
mutex constraint(H RAR), 361 
MYCIN, 9 
myopic (WJ), 23 
myopically optimal( 目 前 看 来 是 最 优 ) 301 


N 


N3, 555 

naive Bayesian classifier (朴素 贝 叶 斯 分 类 器 )， 
246, 310, 455 

Nash equilibrium( 44 {t ij), 436 

natural kind( #28), 309, 313, 559 

natural language processing( Á Ais A Ab), 520 

naturel H RIRE), 44, 424 

nearest neighbors (Ut B), 325 


negation( E), 158, 185 

negation as failure ( #7 BU AM), 194, 199, 537 

negative examples( 负 类 样本 )，607 

neighbor(4$ JH), 75, 131 

neural network(##4 P44), 315 

no, 166 

no-forgetting Agent( 无 遗忘 Agent), 388 

no-forgetting decision network( 无 遗忘 决策 网 络 )， 
388 

node( 节 点 )，75 

noisy( 噪 声 ) 267 

noisy or IR Æ), 250 

non-deterministic( As mÆ HY), 170 

non-deterministic procedure( 不 确定 性 过 程 )，170 

non-ground representation( 非 基 表 示 )，580 

non-monotonic( 非 单调 的 )，196 

non-parametric distribution( 非 参数 化 分 布 )，223 

non-planning( 非 规划 )，23 

non-serial dynamic programming ( 非 序 列 动 态 规 
划 )，151 

non-terminal symbol( 非 终结 符号 )，521 

nonlinear planning( 非 线性 规划 )，364 

normal distribution (E A474), 223 

normal-form game( 标 准 式 博弈 )，425 

NP-complete( NP 完全 )，170 

NP-hard(NP 难 )，170 

number of Agents dimension (Agent 数量 维度 )， 
25 

number uncertainty( 数 量 不 确定 性 )，619 


O 


object% 2%), 552, 575 

object aggregate( 对 象 聚合 ) 575 

object language( 对 象 语言 )，580 

object property( 对 象 属性 ) 568 

object-oriented languages( 面 向 对 象 语言 )，495 

object-oriented programming (OOP) languages( 面 
向 对 象 编程 语言 ) 558 

objective function( ARAZ), 144 

observation (W4), 11, 17, 174, 225 

occurrent (Hik), 573, 575 

occurs checK( 出 现 检 查 )，518 

Ockham’s razor( 奥 卡 姆 剃刀 原理 )，287 

off policy( 离 策略 )，470 

off-policy learner( 离 策略 学 习 器 ) 475 
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offline (HR), 61 

offline computation( 离 线 计算 )，17 

offline learning( 离 线 学 习 )，285 
omniscient agent( 全 知 Agent), 114 
on-policy learner ERMA Y AE), 475 
one-point crossover( 单 点 交叉 ) 142 
online( 在 线 )，60，64 

online computation( 在 线 计算 }，17 

online learning (在 线 学 习 )，285 
ontological( 本 体 论 的 )，221 
ontology(A Kk), 61, 161, 175, 549, 563 
OOP, AZ object-oriented programming 
open-world assumption (JF Ait FBZ), 193 
optimal eft wy). 74 

optimal algorithm( 最 优 算法 )，105 

optimal policy( 最 优 策略 )，386，392，403 
optimal solution( 最 优 解 )，13，76 
optimality criterion( 最 优 性 标准 )，144 
optimization problem (最 优化 问题 )，144 
oracle( 预 言 )，170 

orders of magnitude reasoning( 量 级 推理 )，52 
ordinal( 与 顺序 有 关 的 )，13 

ordinal preference( 与 顺序 有 关 的 偏好 )，25 
organizations( 组 织 )，6. 

outcome( 结 果 )，373，382，425 

outgoing are( Hi), 75 

overfitting( WA). 303 

OWL(Web 本 体 语 言 )，564，568 


P 


PAC learning(PAC 3J), 332, 340 

pair(X}), 633 

parametric distribution( 参 数 分 布 )，223 

parametrized random variable (参数 化 随机 变量 )， 
613 

paramodulation( 参 数 化 调整 )、534 

parents( 父 节点 )，235 

partial(#B4} A), 267 

partial evaluation( 部 分 评价 )，590 

partial-order planning( 偏 序 规划 )，363 

partially observable( 部 分 可 观察 )，23 

partially observable game( 部 分 可 观察 博弈 )，428 

partially observable Markov decision process ( #$ 4} 
可 观察 马尔 可 夫 决 策 过 程 )，401; 411 

particle( 粒 子 )，264 


particle filtering( 粒 子 滤波 )，264，265 

passive sensor( 被 动 传感器 ) 64 

past experience( 过 去 的 经 验 )，11 

path( 路 径 )，75 

consistency( 一 致 性 )，125 

payoff matrix( 支 付 矩 阵 ) 426 

percept( 感 知 )，45 

percept stream( 感 知 流 )，46 

percept trace( 感 知 轨迹 )，46 

perception( 感 知 )，58 

perceptron( 感 知 器 )，306 

perfect information( 完 全 信息 )，430 

perfect information game( 完 全 信息 博弈 )，426 

perfect rationality( 完 全 理性 )，26 

philosophy (Hf), 9 

physical symbol system( 物 理 符号 系统 )，15 

physical symbol system hypothesis( 物 理 符 号 系统 
假设 )，15，319 

pixels( 像 素 )，45 

plan( 规 划 )，356 

planner( 规 划 器 )，356 

planning( 规 划 )，356-370，604 

as a CSP( 作 为 一 个 CSP)，360 

forward( 前 向 )，355 

partial-order( 偏 序 ) 363 

regression( 回 归 )，357 

planning horizon( 规 划 时 域 )，22 

planning horizon dimension( 规 划 时 域 维度 )，23 

plate model( 平 板 模型 )，338，613 

point estimate( 点 估计 )，288 

policy( 策 略 )，103，386，390 

policy iteration (R RIAR), 407 

policy search( 策 略 搜索 )，466 

POMDP, #2 partially observable Markov deci- 
sion process 

population(#P#F), 141, 264 

positive examples( 正 类 样本 )，607 

possible( 可 接受 的 )，358 

possible world( 可 能 世界 )，113，115，382，391， 
615 

posterior probability( 后 验 概率 )，225 

pragmatics(i FA), 521 

precision Hi WE). 293 

precision-recall curve( 准 确 度 -召回 率 曲 线 )，293 

precondition( 先 决 条 件 )，350，353，354,.60]1 

precondition constraints( 先 决 条 件 约束 )，361 


predicate symbol( 谓 词 符 号 )，494 
preference( 偏 好 )，144 
preference bias( 偏 好 偏 置 )，331 
preference dimension( 偏 好 维度 )，25 
preference elicitation( 偏 好 引出 )，379 
primitive( JG), 204, 354, 566, 600 
knowledge( if), 558 
prior ceount( 先 验 计 数 ) 296 
prior knowledge( 先 验 知识 ) 10 
prior probability( 先 验 概率 )，225 
prisoner’s dilemma( 因 徒 困境 ) 437 
probabilistic independence( 概 率 独 立 性 )，233 
probabilistic inference( 概 率 推理 )，248 
probabilistic relational model (PRM) (概率 关系 模 
型 )，612 
probability( 概 率 )，219-275，295 
axioms( 公 理 )，224 
conditional( 条 件 )，225 
posterior( 后 验 )，225 
prior( 先 验 )，225 
probability density function( 概 率 密度 函数 )，223 
probability distribution( 概 率 分 布 )，222 
probability mass( 概 率 质 量 ) ，262 
probability measure( 概 率 度 量 )，221 
probable solution( 可 能 解 )，14 
probably approximately correct (可 能 近似 正确 )， 
259, 332 
probably approximately correct learning( 可 能 近似 
正确 学 习 )，332 
process( 过程 )，23，576 
process aggregate( 过 程 聚 合 )，576 
processual context( 过 程 性 上 下 文 )，576 
processual entity( 过 程 性 实体 )，576 
projection( 投 影 )，636 
Prolog, 9, 494, 496 
proof( 证 明 )，167 
bottom-up( 自 底 向 上 )，167 
top-down《 自 顶 向 下 )，169 
proof procedure GEHA it #2) , 167 
proof tree( 证 明 树 ) ，179 
prop, 552 
property R HE), 552, 568 
property inheritance( 属 性 继承 ) ，561 
proposal distribution( 提 议 分 布 )，260，261 
proposition (m), 21, 158 
propositional calculus( 命 题 演 算 )，158 
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propositional definite clause resolution fri MH E F 
名 解析 )，169 

propositional definite clauses( 命 题 确定 子 句 )，163 

propositional satisfiability( 命 题 可 满足 性 )，126 

prospect theory( 前 景 理论 )，380 

proved( 证 明 )，167 

pseudocount( 伪 计数 )，296 

psychology OÒH), 9 

punishment(#& ji), 399 

pure strategy (Ai gI), 435 

pure symbol( 纯 符号 ) 127 

purposive agent( 有 目标 的 Agent), 44 
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Q“, 404 

Q-learning(Q-4# 3J), 469 
Q-value(Q-{#), 404, 469 

Qr, 403 

qualitative derivatives (ŒE EFH), 52 
qualitative reasoning( 定 性 推理 )，52 
quality( 特 征 )，575 

quantitative reasoning( 定 量 推 理 )，52 
duery( 查 询 )，166，494，496 
querying the user( 询 问 用户 ) 175 
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random initialization (EpL #444). 131 
random restart( 随 机 重启 )，131 
random sampling( 随 机 采样 )，132 
random variable( 随 机 变量 )，221 
random walk( 随 机 游 走 )，132 
random worlds( 随 机 世界 )，233，234 
range( 范 围 )，552，633 
rational( 理 性 )，376 

rational agent( 理 性 Agent)，373 
RDF, 555, 559, 564 

RDF Schema, 559 

RDF-S, 564 

rdf; type, 559 

rdfs; subClassOf, 559 
reachable( AJ AMY), 599 

realizable entity( 可 实现 实体 )，575 
reasoning( 推 理 ) 17 

recall( A El), 293 
recognition( 确 认 )，201 
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record linkage( 记 录 关 联 )，619 

recursively enumerable( 递 归 可 数 )，517 

reflection(H{ E), 579 

regression( EJH), 284, 304 

regression planning E HLR) s 357, 358 

regression tree( EH Pf), 314 

reify (R fk 4h). 552 

reinforcement learning (ÑIR), 285, 463 

rejection sampling (4 WR tE), 259 

relation(HR), 22, 492, 633, 635 

relational algebra( 关 系 代 数 )，635 

relational database( 关 系数 据 库 )，635 

relational descriptions( 关 系 描述 )，22 

relational probability model( 关 系 概率 模型 )，612 

relational uncertainty( 关 系 的 不 确定 性 )，619 

representation( 表 示 )，12 

representation scheme( 表 示 方 案 )，12 

representation scheme dimension( 表 示 方 案 维度 )， 
20，22 

resampling( 重 采样 )，264 

resolution (H4), 169, 171 
SLD, 169, 510 

resolvent( 4#), 171 

resource( 资 源 ) 555, 564 

Resource Description Framework( 资 源 描述 框架 )， 
555, 564 

restriction bias( 限 制 偏 置 )，331 

return( 返 回 值 )，469 

revelation principle( 显 示 原 理 )，447 

reward( 回 报 )，399 

rewrite rule( 重 写 规则 )，521，534 

risk averse( 风 险 规避 )，377 

robot( 机 器 人 )，10，30，44 

ROC curve(ROC 曲线 )，293 

role( 角 色 )，63，575 

root), 75 

rule( 规 则 )，163 ，494，496 

rule of derivation( 推 导 规 则 )，167 

run( 运 行 )，427 

run-time distribution( 运 行 时 间 分 布 )，138 
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safety goal( 安 全 目标 )，18，355 
sample average( 样 本 均值 )，258 
sample complexity( 样 本 复杂 度 )，333 


SARSA). 479 
satisfiable( 可 满足 的 )，201 
satisficing( 满 意 )，14 
satisficing solution( 满 意 解 )，14 
satisfies( 满 足 )，116 
policy( 策 略 )，391 
satisfy( 满 足 )，115 
scenario( 情 景 ) 201 
scheme( 方 案 )，115。635 
scientific goal(#t Hip). 4 
scope(7E M). 115, 145, 634, 635 
search( 搜 索 )，71-110 
A”, 89 
best-first( 最 佳 优 先 )，88 
bidirectional( 双 向 )，101 
breadth-first( 宽 度 优 先 )，84 
cycle-checking( 环 检查 )，93 
depth first( 深 度 优先 )，80 
dynamic programming( 动 态 规 划 )，103 
gradient descent( 梯 度 下 降 )，149 
heuristice( 启 发 式 )。，87 
island driven (JLA IKZ), 101 
iterative deepening GARRE), 95 
local search( 局 部 搜索 )，130 
lowest-cost-first( 最 低 代 价 优先 )，86 
search and score( 搜 索 与 评分 )}，462 
search bias( 搜 索 偏 置 )，331 
second-order logic( 二 阶 偿 辑 )，517 
second-price auction( 第 二 价格 拍卖 )，448 
select( 选 择 )，170 
selection( 选 择 )，635 
selector function( 选 择 器 函数 )，615 
semantic interoperability( 语 义 互 操作 )，65，550 
semantic network( 语 义 网 )，554 
semantic Web( 语 义 Web), 555, 564 
semantics 1), 159, 520 
propositional calculus( 命 题 演 算 )，159 
variables( 变 量 ) 496 
sensing uncertainty dimension( 感 知 不 确定 维度 )，23 
sensor( 传 感 器 )，44，45，64 
sensor fusion( 传 感 器 融合 )，270 
separable control problem( 可 分 割 的 控制 问题 )，58 
sequential decision problem( 序 贯 决策 问题 )，、386 
sequential prisoner’s dilemma( 序 贯 囚徒 困境 )，438 
set( 集 合 )，633 
set difference( 集 合 差 )，636 
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short-term memory( 短 期 记忆 )，61 step size( 步 长 》，150,15]1 

sigmoid, 307 stimuli( 刺 激 )，45 

simulated agent( 仿 真 Agent)，59 stochastic( 随 机 的 )，24 

simulated annealing( 人 模拟 退火 )，136 stochastic beam seatch( 随 机 集束 搜索 )，142 
single agent( 单 个 Agent), 25 stochastic local search( 随 机 局 部 搜索 )，134 
single decision( 单 一 决策 )，384 stochastic simulation( 随 机 模拟 )，256 
single-stage decision network( 单 阶段 决策 网 络 )，384 stochastic strategy( 随 机 策略 )，435 
site( 位 置 )，575 stopping state( 停 止 态 )，399 
situation( 情 景 )，598 strategic form of a game( 博 弈 的 策 栈 形 式 )，425 
situation calculus( 情 景 演算 )，598 strategically( 策 略 地 ) ，424 

SLD derivation(SLD 推导 )3 171, 510 strategy (HEW), 426, 427, 435 

SLD resolution(SLD 44), 169, 510 strategy profile( 策 略 组 合 )，427，435 

slor( fi), 556 strictly dominated (J R # ZACH), 147 
Smalltalk, 558 strictly dominates (JR % ME), 440 
smoothing FH). 267, 271 strictly preferred( 严 格 偏 好 )，373 

SNLP, 370 STRIPS assumption(STRIPS 假设 )，354 
social preference function( 社 会 偏好 函数 )，446 STRIPS representation(STRIPS 表示 )，354 
society( 社 会 )，6 structure learning (449%), 461 

soft clustering KRX), 452 subClassOf, 559 

soft constraint ($k tE R), 111, 145 


subgame-perfect equilibrium FER TEIM), 439 
soft-max( 4k i KAE), 473 subg T EP, 171 


software agent kt Agent), 10 subject( 主 题 )，552 
SORNE cogineer(RH DE. K subjective probability EWR), 220 
e ik 13 substitutes (È$, 381 
a eae ; ms substitution( 4%) , 506 
a s 

ort A i sum-of-squares error( 平 方 和 误差 )，290，453 
spatial region(4s [AJ 72 fA). 573, 575 : 3 

i vs supervised learning(4 i #2473), 284, 288 
spatio-temporal region( 时 空 范围 )，576 

Bein support set( 支 持 集 )， 435, 439 
specialization operator( 具 体 化 算 子 )，609 

= support vector machine (SVM) (支持 向 量 机 )，314 
specific boundary( 特 定 的 边界 )，329 

> ; SVM, L support vector machine 
squashed linear function( ja Bett HR). 306 
symbol( 符 号 ) 15, 114 


stable( 4 Æ H), 453 
stack(#%), 80 symbol level( 符 号 层 )，17 
stage( 阶 段 )，23 symbol system( 符 号 系统 )，15 
start node( 起 始 节 点 )，75 syntax( 句 法 ) 520 

Datalog, 494 


start states( 初 始 状态 )，74 a, 
DE e propositional definite clauses( 命 题 限定 子 句 )，163 
synthesis( 综 合 )，4 


state( 状 态 )， 20, 72 fac 
state constraintsCRALIF. 361 systematice Rae) + S70 


state space( 状 态 空 间 )，72 T 
state-space graph RASHED, 351, 356 

state-space problem( 状 态 空间 问题 )，74 tabu list( 禁 忌 表 ) ，135 
static(##AS). 599 target features( 目 标 特征 )，288 
stationary FAY), 266, 399 TD error(TD 误差 )，467 
stationary policy( 平 稳 策 略 )，403 tell( 告 诉 )，161 


step function (MERA). 306 temperature( 温度) 473 
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temporal difference error( 人 时 间 差 分 误差 )，467 

temporal region( HY ikyu Hl), 575 

term( 项 ) 494, 514 

terminal symbol( 终 结 符号 )，521 

terminological knowledge base( iB MIRE), 568 

test examples( 测 试 样本 )}，288 

theorem( 定 理 )，167 

there exists( 存 在 )，500 

thing( 事 物 )，573 

thinking( 思 考 )，4 

threat( 威 胁 )，438 

time( 时 间 )，46，598 

tit=fortat( 一 报 还 一 报 )，438 

top-down proof procedure( 自 顶 向 下 的 证 明 过 程 )，169 

total assignment( 全 赋值 )，115 

total reward( 总 回报 )，402 

trading agent( 交 易 Agent), 30, 37 

training examples(Jl| REAL), 284, 288, 328 

transduction (###R), 48 

transitivity of preferences( 偏 好 的 传递 性 )，374 

tree( 树 )，75 

tree augmented naive Bayesian (TAN) network( 树 
增强 朴素 贝 时 斯 网 络 )，314 

treewidth( 树 宽 )，130，256 

triple( 三 元 组 )，552，555， 606, 633 

triple representation( 三 元 组 表示 )，552 

true(H), 159, 498, 633 

true-positive rate( H iF ¥), 293 

truth maintenance system( 真 值 维持 系统 )，207 

truth value( 真 值 )，139 

truthful( 真 正 的 ) ，446 

try( 党 试 )，131 

tuple( 元 组 )，115，633，635 

Turing test( 图 灵 测 试 )，5 

Turtle( 一 种 语言 )， 555 

tutoring system (j$ FRA), 30 

two-step belief network( 两 步 信念 网 络 )，272 

type( 类 型 )，559 
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UML, 558 

unary constraint( 一 元 约 来) » 116 
unconditionally independent( 无 条 件 独立 )，235 
unification( 合 一 )，511 

unifier( 合 一 算 子 )，507 


Uniform Resource Identifier( 统 一 资源 标识 符 )， 
555, 564, 568 

uninformed search strategies( 盲 目 搜索 策 覆 ) 80 

union( 并 )，636 

unique names assumption( 唯 一 名 字 假 设 )})，535 

unit resolution( 单 元 归结 )，127 

units( 单 元 )，315 

universally quantified( 全 称 量 化 )，498 

universally quantified variable (全称 量化 的 变 
量 )，498 

unsatisfiable( 不 可 满足 的 )，186 

unstable( 不 稳定 的 )，319 

unsupervised learning( 无 监督 学 习 )，285，451 

URI, 参见 Uniform Resource Identifier 

useful( 令 人 满意 的 )，358 

user( 用 户 ) 64, 114, 175 

utility( 效 用 )，14，376 

utility node( 效 用 节点 )，385) 
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V", 403 
V*, 404 
validation set( 验 证 集 )，324 
value( 值 )，401 
value of control( 控 制 价值 )，398 
value of information( 信 息 价值 )，397 
vanilla meta-interpreter( 普 通 的 元 解释 器 )，582，583 
variable( 变 量 )，113 
algebraic( 代 数 的 ) 113 
Boolean( 布 尔 )，113 
continuous( 连 续 )，113 
decision( 决 策 )，382 
discrete( 离 散 )，113 
existentially quantified( 存 在 量化 )，500 
logical( 人 逻辑 的 )，494 
random( 随 机 )，221 
universally quantified( 全 称 量化 )，498 
variable assignment( 变 量 指派 )，498 
variable elimination( 变 量 消除 )，386 
belief networks( 信 念 网 络 )，248 
CSP, 127 
decision networks( 决 策 网 络 )，392 
variational inference( 变 分 推理 )，248 
VCG mechanism(VCG 机 制 )，447 
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version space( 变 型 空 间 )，329 
virtual body( 虚 拟 体 )，50 
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walk( 游 走 )，131 

weakest precondition( 最 弱 前 提 条 件 )，358 
weakly dominated( 弱 支配 )，147 

weakly preferred( 弱 偏好 )，373 

Web Ontology Language(Web 本 体 语 言 )，564 
what( 哪 些 )，17 

why question(“ 为 什么 ”问题 )，177 

whynot question(“ 为 什么 不 ”问题 )，177 

win or learn fast (WoLF)( 赢 或 快速 学 习 )，445 


word( F), 494 

world(jt 3), 10 

worst-case error( 最 坏 情 襄 误 差 )，291 
wrapper( 封 装 )，65 
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Artificial Intelligence Foundations of Computational Agents 


“ 玉 书 采用 现代 的 思想 ， 清 晰 地 介绍 了 使 用 合理 的 计算 Agent 和 仙 辑 作为 统一 线程 的 人 工 智 能 领域 ， 
包含 许 多 完全 的 算 例 各 种 难度 的 习题 集 、 基 于 专门 设计 的 声明 式 语言 AILog 的 编程 作业 、 通 过 六 Jspace 小 
补充 表示 的 整合 良好 的 在 线 支持 。 如 果 你 计划 为 本 科 或 以 上 的 学 生 教 授 一 门人 工 智 能 的 课程 ， 必 
真 对 待 这 本 非常 有 意思 的 书 。” 
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hays 瓦尔 托 尔 塔 ， 南 卡罗来纳 大 学 


“二 书 的 清晰 度 是 令 人 惊讶 的 ! 每 一 章 的 材料 都 完美 地 综合 考虑 了 以 下 方面 : 针对 初学 者 的 易 理解 
性 ; 针对 高 年 级 学 生 的 理论 性 和 挑战 性 ; 针对 专家 的 可 参考 性 。 这 些 材料 组 织 成 不 同 的 章节 ， 教 师 可 以 
针对 学 本 做 出 适当 的 分 蔬 选 择 。 这 就 好 像 是 三 末 书 合 在 一 起 人 TUG RUM, RRA RAAR LESH 
一 本 书 。 
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“本 书 填补 了 AI 文献 的 空 向 。 它 适用 于 高 年 级 本 科 生 ， 并 且 没 有 在 支 术 严 谨 性 上 做 出 妥协 。 它 是 

简 法 的， 但 对 AI 的 所 有 主要 领域 都 给 出 了 现代 的 表示 ， 作 为 AI 的 介绍 性 课 和 各 是 非常 有 用 的 。Poole 和 

Mackworth 就 广泛 、 多 样 的 人 工 智 能 领域 的 条 理性 做 了 不 懈 的 努力 = 种 条 理性 之 下 ， 所 有 的 AI 都 被 族 
在 由 复杂 性 维度 定义 的 智能 Agent 的 设计 空间 里 。 a 

—— “39s rte ~ bi RER 


本 书 讨论 Al 科学 它 将 Al 作为 智能 计算 Agent 设 计 的 研究 课题 5 本 书 昌 然 设计 为 教科 书 ， 但 它 也 适合 广大 
专业 人 员 和 研究 人 员 阅 读 。 本 书 的 一 个 重要 特色 是 其 在 线 学 习 资 源 -(Chttp:Wartint:info/) -= 

在 过 去 的 几 十 年 里 ， 人 工 智能 是 作为 一 种 严肃 科学 和 工程 学 科 出 现 的 。 本 书 提供 了 针对 本 科 生 和 研究 生 的 
第 一 手 便利 可 用 的 领域 综合 资料 ， 对 当今 该 领域 的 基础 发 展 进行 了 展望 。 像 任何 名 副 其 实 的 科学 一 样 ，Al 具 有 
条 理 分 明 、 形 式 化 的 理论 和 难以 控制 的 实验 。 本 书 均衡 了 理论 和 实验 部 分 ， 并 说 明了 如 何 将 理论 与 实验 密切 地 
联系 起 来 ， 使 科学 与 工程 应 用 共同 发 展 。 
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